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以 机 器 学 习 为 核心 的 人 工 智能 已 经 成 为 新 一 代 生产 力 发 展 的 主要 驱动 因素 。 新 的 技术 正 
渗透 ， 大 有 变革 各 个 领域 的 趋势 。 传 统 产业 向 智慧 产业 的 升级 迫使 原 行业 从 业 人 员 逐 渐 转 型 


在 向 各 行 各 业 
,市场 上 对 相 


关 学 习 材料 的 需求 也 日 益 高 涨 。 帮 助 广大 学 习 者 更 好 地 理解 和 掌握 机 器 学 习 ， 是 编写 本 书 的 目的 。 


本 书 针对 机 器 学 习 领 域 中 最 常见 的 一 类 问题 一 一 有 监督 学 习 ， 从 入 门 、 进 阶 、 深 化 三 个 


层面 由 浅 人 深 


地 进行 了 讲解 。 三 个 层面 包括 基础 人 门 算法 、 核 心理 论 及 理论 背后 的 数学 优化 。 人 门 部 分 


以 逻辑 回归 为 


代表 的 广义 线性 模型 为 出 发 点 ， 引 入 书 中 所 有 涉及 的 知识 点 ; 进 阶 部 分 的 核心 理论 涵盖 了 经 验 风险 最 小 、 


结构 风险 最 小 、 正 则 化 及 统一 的 分 类 边界 理论 ; 深化 部 分 的 数学 优化 则 主要 包括 最 大 炳 原理 
偶 等 理论 在 数学 上 的 推导 ， 以 及 对 模型 求解 的 主流 最 优化 方法 的 探讨 等 。 

本 书 由 浅 和 人 深 ， 从 个 别 到 普 便 ， 从 自然 算法 到 优化 算法 ， 从 各 个 角度 深入 剖析 了 机 器 学 
读者 循序 渐进 地 掌握 机 器 学 习 的 概念 、 算 法 和 优化 理论 。 
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第 1 次 印刷 


在 当今 的 人 工 智能 领域 中 , 最 热门 的 技术 毫 无 疑问 当 属 深度 学 习 。 深度 学 习 在 Geof- 
frey Hinton, Yoshua Bengio. Yann LeCun 和 Juergen Schmidhuber 等 巨 壁 们 持续 不 断 的 贡 
献 下 , 在 文本 、 图 像 、 自 然 语言 等 领域 均 取得 了 革命 性 的 进展 。 当然 , 深度 学 习 只 是 机 器 学 
习 的 一 个 分 支 , 能 取得 当前 的 成 就 也 是 建立 在 机 器 学 习 不 断 发 展 的 基础 之 上 。 在 机 器 学 习 
领域 , 很 多 著名 科学 家 (如 图 1 所 示 ) 提出 了 他 们 的 理论 , 做 出 了 他 们 的 贡献 。 Leslie Valiant 
提出 的 概率 近似 正确 学 习 (Probably Approximately Correct Learning, PAC) 理论 打下 了 计 
算 学 习 理 论 的 基石 , 并 在 此 后 提出 了 自 举 (Bootstrapping) 思想 。Vladimir Vapnik 提出 的 
支持 向 量 机 (Support Vector Machine, SVM) 是 一 个 理论 和 应 用 都 十 分 强大 的 算法 。 与 此 
同时 他 所 提出 的 经 验 风险 最 小 与 结构 风险 最 小 理论 , 以 及 背后 更 深层 次 的 VC HE (Vapnik- 
Chervonenkis dimension) 理论 , 为 部 分 统一 分 类 问题 提供 了 理论 基础 。Judea Pearl 提 


a) Leslie Valiant (b) Vladimir Vapnik (c) Judea Pearl (d) Michael I.Jordan 


E 


(e) Leo Breiman (f) Robert Schapire (g) Jerome H.Friedman 


图 1 机 器 学 习 领 域 (支持 向 量 机 、 集 成 学 习 、 概 率 图 模型 ) 的 著名 科学 家 
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了 贝 叶 斯 网 络 , 而 Michael I. Jordan 则 在 此 基础 上 发 展 了 概率 图 模型 。Leo Breiman 在 集 
成 (Ensemble) 学 习 的 思想 下 设计 了 随机 森林 (Random Forest) 算法 ，Robert Schapire 和 
Jerome H. Friedman 则 基于 Boosting 分 别 发 明了 AdaBoost 和 Gradient Boosting 算法 。 
至 此 , 机 器 学 习 中 最 耀眼 的 算法 一 一 支持 向 量 机 、 集 成 学 习 和 概率 图 模型 交相辉映 , 为 
整个 机 器 学 习 理论 的 发 展 葛 定 了 深厚 的 基础 。 

本 书 首先 尝试 把 机 器 学 习 的 经 典 算法 ， 包 括 逻 辑 回归 (Logistic Regression)、 支 持 
向 量 机 和 AdaBoost 等 ,在 经 验 风 险 最 小 和 结构 风险 最 小 的 框架 下 进行 统一 ， 并 且 借 助 
Softmax 模型 和 概率 图 模型 中 的 Log-Linear 模型 阐述 它们 的 内 在 联系 ; HU MAS TIS E 
解读 概率 分 布 、 最 大 似 然 估计 、 指 数 分 布 族 、 广义 线性 模型 等 概念 ; 最 后 深入 剖析 用 于 求 
解 的 最 优化 算法 及 其 背后 的 数学 理论 。 


本 书 的 主要 内 容 


全 书 分 为 9 个 章节 ， 从 单一 算法 到 统一 框架 ， 再 到 一 臻 最 优化 求解 ， 各 章节 的 设置 
如 下 。 

第 1 章 , 首先 提出 并 探讨 几 个 基本 问题 , 包括 回归 思想 、 最 优 模型 评价 标准 、 数 理 统 
计 与 机 器 学 习 的 关系 等 。 然后 介绍 两 个 最 简单 、 最 常见 的 有 监督 学 习 算法 一 一 线性 回归 
和 逻辑 回归 , 并 从 计算 的 角度 分 析 两 种 模型 内 在 的 关联 ， 从 而 为 学 习 “ 广 义 线性 模型 ” 打 
下 基础 。 在 本 章 的 最 后 部 分 初步 讲解 两 个 模型 的 求解 方法 一 一 最 小 二 乘法 和 最 大 似 然 
估计 。 

第 2 章 , 主要 内 容 是 线性 回归 的 泛 化 形式 一 一 广义 线性 模型 。 本章 详细 介绍 广义 线 
性 模型 ， 并 在 第 1 章 的 基础 上 从 Fisher 信息 、KL 散 度 、Bregman 距离 的 角度 深入 讲解 
最 大 似 然 估 计 。 本 章 可 以 看 作 是 第 3 章 的 基础 引入 。 

第 3 章 , 在 前 两 章 的 基础 上 提出 泛 化 误差 和 经 验 风险 最 小 等 概念 ,并且 将 最 小 二 乘 
和 最 大 似 然 并 入 损失 函数 的 范畴 。 在 此 基础 之 上 , 我 们 便 将 逻辑 回归 、 支 持 向 量 机 和 Ada 
Boost 算法 统一 到 分 类 界面 的 框架 下 。 至 此 , 我 们 会 看 到 不 同 的 算法 只 是 分 别 对 应 了 不 同 
的 损失 函数 。 

第 4 章 , 介绍 经 验 风 险 最 小 的 不 足 与 过 拟 合 的 概念 , 之 后 引出 正则 化 。 紧 接着 介绍 
有 监督 学 习 算法 中 的 常见 正则 化 方法 , 包括 Li 和 Lo 正则 化 XG Boost 和 树 。 本 章 从 两 
个 角度 对 Li 和 La 正则 化 进行 深入 讲解 一 一 贝 叶 斯 和 距离 空间 。 这 两 个 观点 分 别 对 应 
本 书后 续 的 两 大 部 分 — TRUE LL. 
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下 一 章 的 Log-Linear 模型 作出 铺垫 。 

第 6 章 , 介绍 Softmax 和 Log-Linear 的 变化 ,并且 将 第 3 章 的 二 分 类 界面 泛 化 到 多 
分 类 界面 , 把 分 类 问题 的 思路 扩展 到 了 多 分 类 和 结构 分 类 。 在 本 章 中 通过 Log-Linear X 
联 了 概率 图 模型 , 通过 Softmax 关联 了 深度 学 习 。 

第 7 章 , 承接 第 4 章 中 Li Lo 正则 化 在 最 优化 角度 的 解释 , 从 凸 共 轿 开始 递 进 地 
推导 出 拉 格 朗 日 对 偶 、Fenchel 对 偶 、 增 广 拉 格 朗 日 乘 子 法 、 交 蔡 方 向 乘 子 法 。 

第 8 章 , 介绍 有 监督 学 习 模型 在 机 器 学 习 场 景 下 的 统一 求解 方法 一 一 随机 梯度 下 
降 法 及 其 改进 算法 。 本 章 对 随机 梯度 下 降 法 进行 了 收敛 性 分 析 ，, 并 根据 分 析 结 果 针 对 其 
缺点 着 重 介绍 了 两 类 改进 策略 一 一 方差 缩减 和 加 速 与 适应 。 

第 9 章 , 主要 对 数学 意义 上 的 最 优化 方法 进行 探讨 , 可 以 看 作 是 连接 第 7 章 和 第 8 
章 的 桥梁 。 第 7 章 的 内 容 是 本 章 的 理论 部 分 , 而 第 8 章 的 内 容 则 是 本 章 介 绍 的 算法 应 用 
在 机 器 学 习 场 景 中 的 特例 ,主要 内 容 包括 一 阶 、 二 阶 最 优化 算法 及 其 收敛 性 分 析 。 


1. 线 性 回归 与 逻辑 回归 


2. 广 义 线性 模型 
线性 / 非 线 性 
3. 经 验 风险 最 小 
分 类 学 习 模型 统一 
4. 结 构 风 险 最 小 


模型 统一 
分 类 边界 (Margin) 的 泛 化 


ATO ELI 基于 拉 格 朗 日 优化 的 理解 


UL ESL] 7. 拉 格 朗 日 乘 子 法 


AMET THU RE Ze BUS 优化 求解 


FH E 
RM 8. 随 机 梯度 下 降 法 


理论 深化 


9. 常 见 的 最 优化 方法 


图 2 章节 结构 关系 图 


6.3E-T if Softmax 


WV nasa: tateonesan FC 
LAA }MAKAAABHA—ES. HHA 3.6 章 主要 由 史 春 奇 博 士 撰写 , 第 
1、2、7~9 章 主要 由 卜 唱 神 撰 写 , 施 智 平 教授 参与 了 本 书 的 组 织 结构 设计 并 提出 了 很 多 宝 
贵 意见 。 由 于 作者 的 能 力 与 水 平 有 限 ， 本 书 对 机 器 学 习 的 探讨 难免 会 有 不 全 面 、 不 深刻 
等 不 足 之 处 , 敬 请 各 位 读者 批评 指正 ,如 蒙 赐教 将 不 胜 感 激 。 
各 个 章节 结构 之 间 的 关系 如 图 2 所 示 。 对 于 基础 稍 浅 的 读者 ， 可 以 按照 图 示 循 序 渐 
进 地 阅读 ; 对 于 有 一 定 基础 的 读者 , 可 以 跳 过 部 分 章节 直接 阅读 感 兴趣 的 章节 。 
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数学 符号 = 


-M------------------------------------------ A 0000000000 
| A 
athematical symbol 
本 部 分 介绍 本 书 所 使 用 的 数学 符号 。 
一 、 数 和 数组 
a 标量 (整数 或 实数 ) 
a 向 量 
A 和 矩阵 
4 张 量 
T5 n 4T n 列 的 单位 矩阵 
7 维度 草 含 于 上 下 文 的 单位 矩阵 
el 标准 基 向 量 [0,… ,0,1,0,--- 0], 其 中 索引 i 处 值 为 1 


diag(a) ”对 角 方 阵 , 其 中 对 角 元 素 由 a 给 定 
a 标量 随机 变量 
a 向 量 随机 变量 
A ^t Pe pt p LAE EE 


二 、 集 合 和 图 
4 集合 
R 实数 集 
(0,1) 包含 0 和 1 的 集合 
{0,1,… ,n} 包含 0 和 之 间 所 有 整数 的 集合 
[a,b] 包含 a All b 的 实数 区 间 
(a, b] 不 包含 a BAF b 的 实数 区 间 
A\B 差 集 , 即 其 元 素 包含 于 A 但 不 包含 于 B 
9 图 


Pac(zi) 图 9 中 ri RTA 
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=. Ral 


ai 向 量 a 的 第 i 个 元 素 , 其 中 索引 从 1 开始 
a; ”除了 第 i 个 元 素 , a 的 所 有 元 素 

Ai; HEE A i i,j 元 素 

A, JERE A 的 第 i 行 

A, WERE A 的 第 i 列 

Aijk 三 维 张 量 4 的 (à, j, k) 元 素 

A, ”三 维 张 量 的 二 维 切片 

ai 随机 向 量 a 的 第 i 个 元 素 


、 线 性 代数 中 的 操作 


AT AERE A 的 转 置 

A* A 的 Moore-Penrose {yi 

AOB A 和 B 的 逐 元 素 乘积 (Hadamard 乘积 ) 
det(A) 4 的 行列 式 


五 、 微 积分 
E y 关于 “的 导数 
oy y XT z 的 偏 导 
Vzy y 关于 z 的 梯度 
Vxy y 关于 x 的 矩阵 导数 
Vxy y XT X 求 导 后 的 张 量 
a f:R" — R7 的 Jacobian 矩阵 J € R™*" 


V2f(z) or H(f)(z) f FEAR = 处 的 Hessian 矩阵 
| fae a 整个 域 上 的 定 积分 
| rar EA S 上 关于 = 的 定 积分 


nn 

六 、 概率 和 信息 论 
alb a Al b 相互 独立 的 随机 变量 
alb|c 给 定 c 后 条 件 独立 
P(a) 离散 变量 上 的 概率 分 布 
p(a) 连续 变量 (或 变量 类 型 未 指定 时 ) 上 的 概率 分 布 
ae P 具有 分 布 P 的 随机 变量 a 
E..p[f(z) 或 Ef(z) f(x) 关于 P(x) 的 期 望 
Var(f (7)) f(x) 在 分 布 P(x) 下 的 方差 
Cov(f (x), g(x)) f(x) 和 g(x) 在 分 布 P(z) 下 的 协 方差 
H(z) 随机 变量 x HEKA 
DxL(PIIQ) P All Q 的 KL BUS 
N (a5 p, X) 均值 为 u 协 方差 为 X. v 上 的 高 斯 分 布 

t. BR 


f: ASB 定义 域 为 A、 值 域 为 B 的 函数 f 
fog f 和 9 HAS 
f(2;0) 由 6 参数 化 , 关于 z 的 函数 (有 时 为 简化 表示 , 忽略 9 WA f(z)) 


Ing x 的 自然 对 数 

a(x) Logistic sigmoid, TA 
C(z) Softplus, In(1 + exp(z)) 

llzllp x 的 Le 范 数 

lll x 的 L? 范 数 

at Zz 的 正 数 部 分 , BY max(0, x) 


lcondition ”如 果 条 件 为 真 则 为 1, 否则 为 0 
有 时 候 使 用 函数 f, 它 的 参数 是 一 个 标量 , 但 应 用 到 一 个 向 量 、 拢 阵 或 张 量 : f(a). 
F(X) F(X). KRABI f 应 用 于 数组 。 例 如 , C = c(X), 则 对 于 所 有 合法 的 i~ j 
TI k, Cis y = o(Xisk)e 
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a, zi 
ys yO. y; R y; 
x 


八 、 数 据 集 和 分 布 


数据 生成 分 布 

由 训练 集 定义 的 经 验 分 布 

训练 样本 的 集合 

数据 集 的 第 i 个 样本 (输入 ) 

监督 学 习 中 与 2 中) 关联 的 目标 

m x n 的 矩阵 ， 其 中 行 Xi. 为 输入 样本 aO 
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1.1 ”线性 回归 


1.1.1 ”函数 关系 与 统计 关系 


在 许多 不 同 的 应 用 场景 中 ， 人 们 对 变量 之 间 的 关系 十 分 感 兴趣 。 变 量 之 间 的 关系 有 
两 种 : 函数 关系 和 统计 关系 。 所 谓 函 数 关 系 ， 是 指 变量 之 间 的 关系 可 以 用 方程 完全 精确 
地 表示 出 来 。 例 如 : 

(1) 描述 加 速度 和 力 之 间 关 系 的 牛顿 第 二 定律 : F = ma. 


(2) 描述 电压 与 电流 之 间 关 系 的 欧姆 定律 : 1— D. 


而 具有 统计 关系 的 变量 之 间 并 不 能 通过 方程 从 一 个 变量 精确 地 计算 出 另 一 个 变量 。 
两 个 变量 之 间 同 时 存在 着 “趋势 ”和 “随机 量 ”。 例 如 , 身高 和 体重 的 关系 : 一 般 身高 较 
高 的 人 体重 也 会 较 大 , 这 是 两 者 之 间 的 趋势 ; 但 只 知道 一 个 人 的 身高 是 无 法 计算 出 其 体 
重 的 , 除了 身高 这 个 因素 之 外 体重 还 会 受到 许多 其 他 因素 的 影响 ,相同 身高 的 人 会 有 不 
同 的 体重 , 这 便 是 二 者 之 间 的 随机 量 。 

线性 回归 是 学 习 连 续 变量 之 间 统 计 关 系 的 一 种 方法 。 几 乎 每 一 个 理工 科 毕 业 的 学 生 
都 或 深 或 浅 地 学 习 过 它 。 以 一 元 线性 回归 为 例 ， 当 看 到 图 1.1 这 张 散 点 图 的 时 候 大 家 都 
会 很 自然 地 想到 使 用 一 条 直线 y = wo + wiz 来 拟 合 图 上 的 点 。 然 而 空间 中 的 直线 有 无 数 
条 , 那么 问题 来 了 , 哪 一 条 才 是 “最 优 拟 合 直线 ” 呢 ? 既然 要 寻找 最 优 的 那 条 直线 , 就 需 
要 有 一 个 标准 来 比较 不 同 直线 的 优 和 劣 。 事实 上 不 只 是 线性 回归 ， 所 有 的 模型 都 需要 一 个 
或 者 若干 个 标准 来 进行 模型 内 部 或 者 模型 之 间 的 比较 , 这 样 才能 选 出 最 终 需要 的 模型 。 
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图 1.1 统计 关系 


然而 标准 本 身 的 制定 和 选择 是 一 件 更 加 复杂 的 事情 。 不 同 的 研究 者 站 在 不 同 的 角度 
所 关注 的 内 容 不 相同 , 其 选择 的 标准 会 不 同 。 事 实 上 这 里 涉及 统计 与 机 器 学 习 的 关系 。 在 
继续 对 线性 回归 的 分 析 之 前 ， 先 对 统计 与 机 器 学 习 的 异同 进行 一 下 总 结 。 


1.1.2 ”统计 与 机 器 学 习 


自 机 器 学 习 出 现 以 来 , 关于 它 和 统计 之 间 关 系 的 讨论 就 没有 停止 过 ， 贯 穿 整 个 机 器 
学 习 的 发 展 历史 。 机 器 学 习 是 源 自 于 统计 还 是 完全 独立 的 一 门 学 科 ? 机 器 学 习 从 统计 中 
借鉴 了 许多 东西 , 但 在 实际 使 用 中 与 统计 似乎 又 有 着 很 大 的 不 同 。 关 于 两 者 之 间 的 不 同 
之 处 , 如 果 在 网 上 搜索 一 下 , 就 会 找到 许多 不 同 的 答案 。 HM, Robert Tibshirani( 正 则 化 
方面 的 大 师 , Lasso 的 提出 者 ) 就 说 “Machine learning is glorified statistics”. 同时 也 有 人 
说 “机 器 学 习 是 信息 时 代 的 统计 ”， 或 者 说 “机 器 学 习 是 适用 于 大 数据 的 统计 ”。 可 能 还 
会 找到 一 些 从 算法 角度 来 总 结 两 者 不 同 的 说 法 ， 如 “机 器 学 习 就 是 只 做 统计 模型 不 做 假 
设 检验 ”“ 机 器 学 习 会 告诉 你 预测 结果 和 准确 率 , 而 统计 会 额外 加 一 句 “ 你 重复 100 次 我 
做 的 事情 , 至 少 有 95 次 会 得 到 和 我 相同 的 结果 ””。 这 个 问题 可 能 至 今 都 还 没有 一 个 十 
分 清晰 明确 的 答案 。 

不 同 的 人 会 有 不 同 的 观点 , 我 们 认为 对 于 统计 和 机 器 学 习 重 又 的 部 分 , 二 者 的 不 同 
之 处 并 非 具 体 的 算法 , 而 在 于 目标 和 关注 点 。 它 们 都 是 在 对 数据 集 进行 建 模 , 但 却 有 着 不 
同 的 目的 。 


1. 统计 
统计 一 般 可 以 分 为 两 大 类 : 描述 性 统计 (Descriptive) 和 推断 性 统计 (Inferential)。 
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描述 性 统计 是 用 来 概括 、 表 述 事物 整体 状况 以 及 事物 间 关联 、 类 属 关系 的 统计 方法 。 
它 主要 通过 一 些 统计 量 和 可 视 化 的 技术 来 描述 数据 集 的 内 在 结构 , 把 一 个 包含 众多 变量 
的 复杂 数据 集 简化 为 使 用 若干 个 统计 量 进行 描述 , 如 最 常见 的 均值 和 方差 。 

推断 性 统计 是 研究 如 何 利用 样本 数据 来 推断 总 体 特征 的 方法 。 推断 性 统计 所 研究 的 
问题 既 包 含 估计 (Estimation) 又 包含 预测 (Prediction). 通常 统计 学 家 使 用 模型 来 解决 这 
些 问 题 。 于 是 可 以 看 出 , 在 统计 中 , 模型 的 最 主要 作用 是 近似 出 数据 集中 的 数据 所 产生 的 
过 程 , 之 后 再 回答 估计 和 预测 的 问题 。 既 然 关 注 点 在 于 数据 产生 的 过 程 , 那么 在 选 定 一 个 
统计 模型 之 后 ， 就 必须 给 出 充分 的 理由 来 说 明 为 何 选择 这 个 模型 以 及 为 何 这 样 设 定 模型 
的 参数 (如 果 有 参数 的 话 )。 因 此 , 统计 建 模 的 整个 过 程 中 的 每 一 步 都 需要 做 到 “有 理 有 
据 , 令 人 信服 ”， 包括 数据 预 处 理 、 模 型 选择 、 求 解 等 。 过 程 中 引入 的 所 有 假设 都 需要 进 
行 检查 ， 所 以 在 一 个 统计 模型 建立 完成 之 后 往往 会 跟随 着 大 量 的 检验 (Test)， 以 及 一 连 
串 的 p 值 和 各 种 分 数 。 经 过 这 些 严格 的 检查 之 后 , 统计 学 家 才能 确保 最 终 得 到 的 模型 在 
满足 一 系列 特定 的 条 件 时 , 对 于 当前 数据 集 是 最 合适 的 。 

综 上 , 统计 最 关心 的 是 模型 的 有 效 性 和 拟 合 出 的 参数 的 准确 性 。 而 模型 对 于 未 知 数 
据 预 测 的 效果 则 相对 来 说 没有 那么 重要 。 在 统计 中 , 预测 只 是 推断 (Inference) 的 一 种 , 但 
是 在 机 器 学 习 中 , 预测 几乎 是 唯一 关心 的 内 容 。 


2. 机 器 学 习 


机 器 学 习 的 目标 非常 明确 一 一 建立 预测 模型 。 以 本 书 所 关心 的 有 监督 学 习 为 例 , 简 
单 地 回忆 一 下 完成 一 个 机 器 学 习 项 目的 过 程 。 首 先 拥 有 一 个 由 历史 样本 组 成 的 训练 集 ， 
训练 集中 的 每 个 样本 都 带 有 标记 ， 这 个 标记 可 能 是 该 样本 所 属于 的 类 别 ， 也 可 能 是 一 个 
连续 的 数值 。 前 者 对 应 于 分 类 问题 , 后 者 对 应 于 回归 问题 。 之 后 假设 训练 集中 样本 的 分 布 
与 样本 产生 过 程 的 分 布 一 致 ， 并 在 训练 集 上 建立 模型 。 该 模型 主要 用 于 对 训练 集 之 外 新 
产生 样本 的 标记 进行 预测 。 通常 会 使 用 一 个 独立 训练 集 的 测试 集 来 衡量 模型 的 预测 能 力 ， 
模型 在 测试 集 上 的 表现 作为 模型 优 劣 的 唯一 评价 标准 。 可 以 看 到 ,对 于 机 器 学 习 ，“ 实 践 
是 检验 真理 的 唯一 标准 ”。 

与 统计 不 同 的 是 ,机 器 学 习 对 数据 的 产生 过 程 相对 而 言 并 不 关心 。 机 器 学 习 也 会 有 
数据 预 处 理 、 特征 选择 、 模 型 选择 、 求 解 等 步骤 , 但 并 不 需要 对 它们 的 “正当 性 ”(Validity) 
进行 检验 , 这 些 步 又 都 是 为 了 尽 可 能 地 提高 最 终 所 选择 模型 的 预测 能 力 。 而 最 终 得 到 的 
模型 并 不 会 对 数据 的 产生 过 程 进 行 任何 形式 的 推断 , 甚至 可 能 完全 不 会 反映 数据 的 产生 
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3. 统计 与 机 器 学 习 


下 面 就 可 以 总 结 出 两 者 的 不 同 之 处 了 。 

(1) 统计 最 关心 的 是 模型 是 否 能 够 反映 数据 的 产生 过 程 ， 因 而 会 对 模型 及 其 建立 过 
程 的 各 个 方面 进行 假设 检验 ; 机 器 学 习 只 关心 模型 的 预测 能 力 ， 最 后 只 会 检查 模型 在 测 
试 集 上 的 表现 ， 反 映 在 模型 完成 后 所 交付 的 报告 上 。 按 照 机 器 学 习 的 思路 所 建立 的 模型 
会 给 出 在 测试 集 上 的 结果 , 而 沿 着 统计 的 思路 所 建立 出 的 模型 除 此 之 外 还 会 给 出 一 系列 
p 值 和 分 数 。 以 线性 回归 为 例 , 统计 分 析 方面 的 工具 会 计算 出 结果 , 而 机 器 学 习 方 面 的 工 
具 则 并 不 提供 这 些 计算 。 

(2) 由 于 第 (1) 点 不 同 的 存在 , 机 器 学 习 在 建 模 时 受到 的 限制 会 比 统计 少 很 多 。 例如 ， 
逻辑 回归 要 求 特征 之 间 不 存在 多 重 共 线 性 (Multi-Colinearity), 统计 建 模 时 就 需要 检查 每 
个 特征 的 方差 膨胀 因子 (Variance Inflation Factor, VIF); 而 对 于 机 器 学 习 ， 虽然 很 多 时 
候 排 除 共 线 性 可 以 提升 模型 的 预测 能 力 , 但 检查 VIF 并 不 是 必需 的 。 再 如 ,朴素 贝 叶 斯 
分 类 器 , 统计 上 要 求 特 征 之 间 需 要 相互 独立 , 但 机 器 学 习 就 没有 这 个 要 求 , 而 且 在 很 多 时 
候 若 模型 包含 不 独立 的 特征 反而 会 有 更 好 的 分 类 效果 。 

(3) 虽然 在 第 (2) 点 中 可 以 知道 ， 机 器 学 习 在 建 模 过 程 中 不 关心 统计 中 的 一 系列 假 
设 , 但 机 器 学 习 有 一 个 单独 的 假设 需要 满足 : 训练 集中 的 样本 独立 同 分 布 , 该 分 布 不 随时 
间 发 生变 化 , 且 样 本 足够 表征 这 个 分 布 。 其 中 样本 足够 表征 分 布 确 保 了 模型 在 测试 集 上 
的 泛 化 能 力 ; 而 分 布 不 随时 间 变 化 则 保证 了 模型 对 于 未 来 新 产生 数据 的 泛 化 能 力 。 关 于 
这 个 假设 , 会 在 第 3 章 谈 到 PAC 学 习 和 VC 维 理论 的 时 候 进 行进 一 步 的 说 明 。 

本 书 主要 讨论 的 内 容 是 机 器 学 习 中 的 有 监督 学 习 问 题 , 虽然 落脚 点 在 于 机 器 学 习 , 但 
出 发 点 始 于 一 系列 经 典 的 回归 模型 。 这 些 回 归 模 型 源 自 于 统计 ， 因 此 本 书 在 最 开始 的 部 
分 会 更 多 地 从 统计 和 角度 出 发 , 然后 随 着 内 容 的 展开 慢 慢 地 过 渡 到 机 器 学 习 的 世界 。 

这 里 已 经 大 体 上 了 解 了 统计 与 机 器 学 习 的 不 同 , 回 到 线性 回归 的 主线 , 现在 就 需要 一 
个 标准 来 寻找 最 优 的 拟 合 直线 ， 把 这 个 标准 称 为 模型 表现 的 评价 函数 。 如 果 使 用 机 器 学 
习 的 思路 , 只 需要 选 定 一 个 评价 函数 然后 寻找 该 评价 函数 的 最 优 解 即 可 ; 如 果 按 照 统计 
的 方式 ， 还 需要 考虑 模型 参数 估计 结果 的 无 偏 性 (Unbiasedness)、 有 效 性 (Efficiency). 
一 致 性 (Consistency) 等 标准 。 对 于 这 3 个 最 常用 的 估计 量 衡 量 标准 ， 最 简单 的 解释 
如 下 。 

(1) 无 偏 性 : 多 次 抽样 的 样本 估计 出 的 参数 均值 等 于 参数 的 期 望 。 

(2) 有 效 性 : 多 个 无 偏 估计 量 中 标准 差 最 小 的 估计 量 更 有 效 。 

(3) 一 致 性 : 随 着 样本 量 的 增 大 , 点 估计 的 值 越 来 越 接近 被 估计 的 总 体 的 参数 。 
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评价 函数 决定 的 是 什么 样 的 直线 可 以 称 为 最 优 , 而 估计 量 的 衡量 标准 决定 的 是 应 如 
何 选 择 评价 函数 。 大 家 都 知道 求解 线性 回归 最 常用 的 方法 是 最 小 二 乘法 , 也 就 是 说 为 线 
性 回归 选择 的 评价 函数 是 模型 在 每 个 样本 上 的 预测 误差 的 平方 和 (Sum of Squared Error, 
SSE)。 在 不 同 的 评价 函数 下 都 可 以 找到 一 条 符合 该 评价 函数 的 最 优 直线 ,如何 根 据 估计 
量 的 衡量 标准 来 选择 评价 函数 ,为何 选择 预测 误差 的 平方 和 作为 评价 函数 ,高 斯 -马尔 可 
夫 定 理 给 出 了 答案 。 


1.2 ”最 小 二 乘法 与 高 斯 -马尔 可 夫 定 理 


1.2.1 最 小 二 乘法 


现行 的 最 小 二 乘法 可 以 追溯 到 勒 让 德 (A. M. Legendre) 于 1805 年 发 表 的 著作 《计算 
慧 星 轨道 的 新 方法 》。 它 的 主要 思想 是 通过 未 知 参数 的 选择 , 使 得 模型 的 拟 合 值 与 观测 值 
之 差 的 平方 和 达到 最 小 。 最 小 二 乘法 实质 上 是 对 模型 优 劣 的 衡量 定 下 了 一 个 标准 ， 然 后 
设计 算法 去 寻找 最 符合 这 个 标准 的 未 知 参数 。 方 法 可 以 使 用 梯度 下 降 法 ,也 可 以 使 用 最 
近 又 流行 起 来 的 进化 算法 等 。 对 于 当前 要 解决 的 线性 回归 ,最 小 二 乘法 可 以 在 列 出 方程 
组 之 后 直接 求 得 。 

设 需要 估计 的 未 知 参数 是 w, 则 训练 集中 数据 的 特征 便 组 成 了 方程 组 的 系数 矩阵 X , 
训练 集中 数据 的 标记 y 是 目标 结果 ， 人 们 希望 拟 合 值 与 观测 值 之 差 的 平方 和 达到 最 小 ， 
则 问题 为 


min |X w — y|? (1.1) 
w 


(为 了 推导 的 简洁 性 , 这 里 把 截 距 项 作为 w 的 一 个 分 量 并 在 z 中 对 应 添加 一 个 常数 分 量 
1, 本 书 在 后 面 的 章节 中 默认 对 截 距 项 做 相同 的 处 理 ) 对 其 进行 一 系列 矩阵 运算 变换 

[X w - y - (Xw - y) (Xw - y) 1.2) 
-(w'X'-y')(Xw- y) 3) 


=w X Xw-w'X'y-w'X'y^y'y 


(1. 
(1. 
-w'X'Xw-w'X'y-y Xw^y'y (1.4) 
(1.5) 
( 


=w X Xw-2w'X'y-*y'y 1.6) 


A (1.5) 是 因为 wT y = y Xw( LAS H8 085—436 一 个 数字 的 转 置 还 


是 它 本 身 )。 这 里 要 求 的 是 [X w — y? 关于 w 的 最 小 值 , 从 式 (1.6) 可 以 看 出 , [X w — yl? 
是 关于 w 的 二 次 函数 , 令 对 应 偏 导 数 等 于 0 可 得 
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0JXw- y? 


RET -2X'Xw-2X'y-0 (1.7) 

a x'x up, 则 
X'Xw-X!y (1.8) 
w-(X'X)'Xy (1.9) 


可 见 对 于 线性 回归 , 选取 最 小 二 乘 作为 模型 的 评价 函数 时 ， 可 以 直接 求 得 未 知 参数 
的 解析 解 。 接 下 来 通过 高 斯 -马尔 可 夫 来 说 明 , 在 满足 某 些 条 件 时 ， 最 小 二 乘 是 线性 回归 
最 优 的 评价 函数 。 
1.2.2 ”高 斯 -马尔 可 夫 定 理 

统计 上 评价 模型 参数 估计 结果 最 常用 的 指标 是 无 偏 性 、 有 效 性 、 一 致 性 。 高 斯 - 马尔 
可 夫 定 理 证 明 , 在 满足 一 定 的 假设 条 件 时 ， 以 最 小 二 乘 为 评价 函数 计算 得 到 的 线性 回归 
参数 在 所 有 的 无 偏 估计 中 具有 最 优 的 有 效 性 。 也 就 是 说 , 选取 其 他 评价 函数 所 估计 出 的 
参数 也 可 以 是 无 偏 的 , 但 它们 的 方差 都 比 最 小 二 乘 的 方差 大 。 

首先 来 说 明 最 小 二 乘法 是 无 偏 的 。 本 章 的 一 开始 讲 过 , 线性 回归 是 学 习 连 续 变量 之 
间 统 计 关系 的 一 种 方法 。 所谓 统计 关系 , 一 种 简单 的 理解 是 X 和 在 函数 关系 的 基础 上 
县 加 了 一 个 随机 误差 =， 该 随机 误差 均值 为 0 且 独 立 于 X. 即 

Efe|X] =0 (1.10) 

BX Aly 的 关系 写成 矩阵 形式 , 即 


y = Xwrwue € (1.11) 


上 式 中 的 wre 即 为 参数 的 真实 值 。 由 式 (1.9) 可 知 最 小 二 乘法 估计 出 的 参数 wisp = 
(X'X)3X'y, 其 期 望 


E[wrse|X]=E[(X'X)'XTy] (1.12) 
-E((X' X)! X (X wrue + €))X] (1.13) 
-E(X'X)?X'Xwn-(X! X)? X'e|X] (1.14) 
一 tmue -E(X X)! X! Xe|X] (1.15) 
—wmue (X! X)! X! XE[e| X] (1.16) 

) 


— WTrue (1.17 
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其 中 最 后 一 步 是 由 E[e|X] = 0 得 到 。 接 下 来 要 证 明 在 所 有 的 无 偏 线 性 估计 中 , 满足 某 些 
GRRE, wise 具有 最 优 的 有 效 性 , 即 方差 最 小 。 

Yd —(X'X)2X' - MD)y, 其 中 M 是 一 个 与 (X X) x 相同 维度 的 非 零 矩 
KE. AF d 无 偏 , 则 


E[p|X] - E((X ' X) X" + M)y|X] 118 

aie + M)(Xwrrue + €)|X] 1.19 

-(X'X) X'- M)X wm (X X) XT +M)Ele|X] (1.20 

-(QX X)! X' + M)X wr 1.21) 

-(X ies 1X X wc + M X une 1.22 

— + MX)wrrue 1.23 

= WTrue 1.24 

由 式 (1.23) 可 知 

MX=0 1.25 


接 下 来 计算 w 的 方差 。 假设 随机 噪声 e 的 方差 恒 等 于 o, BD 


Var(e|X) = Var(Xwrrue + | X) = Var(y| X) = 07 I 1.26 
dv 的 方差 为 
Var(i»|X) — Var((X ^ X)! X! + M)y|X) 1.27 
—(XT X)? X! + MyVar(y|X)(X' X)? X! +M)" 1.28 
-e?*(X' X)? X! + M)(X' X)?!X' +M)" 1.29 
-o((X'X)'x'x(X' x)! 
(X' X) (MX)! + MX(X' X)! -x MM!) 1.30) 
—-o?((X' X)! - MM!) 1.31) 


其 中 式 (1.30) 是 由 于 M X = 0。 因 为 Var(wLsE) = o?((X | X)-1). 所 以 


Var(à»|X) = Var(wisg) + MM 1.32) 


注意 式 中 的 MMT 是 矩阵 M 的 Gram 和 矩阵， 对 于 任意 向 量 v 有 v MM w = 
(M'v)'(M'v) = |M'v|? > 0。 所 以 MM" 为 半 正 定 和 矩阵， 也 就 是 说 (w) 的 方差 大 
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于 或 等 于 wise. 于 是 便 证 明了 在 满足 一 定 的 假设 条 件 时 , 最 小 二 乘法 在 所 有 的 无 偏 估计 
中 具有 最 小 的 方差 。 这 些 假设 条 件 其 实 就 是 式 (1.10) 和 式 (1.26). 

(1) XX (1.10), E(e| X] = 0 假设 随机 噪声 < 均值 为 0 且 独 立 于 m. 

(2) 式 (1.26), Var(e| X) = o? 假设 随机 噪声 = 的 方差 恒定 不 变 , 该 假设 称 为 同方 差 
(Homoskedasticity) 

此 时 最 小 二 乘法 得 到 的 结果 为 最 优 线性 无 偏 估计 (Best Linear Unbiased Estimator, 
BLUE). 


1.8 ”从 线性 回归 到 逻辑 回归 


1.2 节 中 介绍 了 线性 回归 。 线性 回归 做 了 一 件 什么 事情 呢 ? 线性 回归 估算 的 是 一 个 连 
续 变量 的 条 件 期 望 
E(ylz) = wTz (1.33) 


如 果 对 象 不 再 是 一 个 连续 的 数值 ， 且 只 有 二 值 化 的 输出 时 ， 如 气象 中 心 预测 明天 是 
否 下 雨 、 医 生 预 测 患者 会 不 会 发 病 、 大 学 生 评估 自己 是 否 会 挂 科 等 ,我们 该 如 何 对 其 进 
行 建 模 和 分 析 呢 ? 一 种 解决 方案 是 制定 一 系列 规则 , 如 决策 树 或 知识 库 , 然后 把 输入 数据 
与 规则 进行 比 对 , 经 过 若干 次 判断 之 后 得 到 一 个 确定 的 结果 。 然 而 由 现实 世界 的 经 验 可 
知 , 对 于 大 多 数 情况 , 完全 相同 的 条 件 并 不 一 定 能 够 导致 完全 相同 的 结果 , 也 许 是 因为 噪 
声 的 存在 , 也 许 是 因为 条 件 的 描述 还 不 够 准确 , 也许 是 因为 事情 本 身 就 是 随机 的 。 因 此， 
希望 在 给 出 预测 结果 的 同时 还 能 给 出 一 个 该 结果 发 生 的 概率 ， 比 如 你 挂 科 的 概率 达到 了 
90% 等 。 

现在 我 们 期 望 的 输出 是 在 给 定 输入 z 之 后 y 发 生 的 概率 p(y|z)。 如 果 约 定 1 和 0 分 
别 表示 y 事件 的 发 生 和 不 发 生 , 那么 p(y = 1|z) = E(y|z) 便 是 我 们 希望 计算 的 结果 。 现 
在 已 经 定义 了 二 值 输出 v. 我 们 希望 建立 一 个 关于 观察 样本 z 的 函数 , 该 函数 的 输出 是 
y 的 条 件 概 率 p(y = 1|z)。 参 考 线性 回归 , > f(z;w) = p(y = 1|z), 其 中 f 是 以 w HE 
数 的 函数 。 直观 上 , 相同 的 样本 sO F y 的 概率 应 该 相同 ; 相近 的 样本 m 下 y 的 概率 
应 该 相近 。 可 否 使 用 线性 回归 的 函数 形式 来 拟 合 f(z; w) We? 

如 果 套 用 线性 回归 , 样本 z 的 线性 函数 y = ws 的 值 域 是 (—00,+00), 而 我 们 期 望 
的 输出 p(y = 1|z) 是 一 个 概率 , 其 值 域 是 [0,1], 二 者 不 匹配 , 因此 需要 对 ply = 1|z)( 以 
TEA p) 进行 变换 之 后 才能 继续 使 用 线性 回归 。 那 Inp We? In 函数 在 [0,1] 上 的 值 域 
Æ (-oo,0]， 还 是 有 一 半 不 匹配 。 事 实 上 In 函数 在 [0,+co) 上 的 值 域 才 是 我 们 需要 的 
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(-co,+eo)。 因 此 只 要 对 p 进行 变换 之 后 的 值 域 为 [0,+co) 就 能 够 继续 套用 线性 回归 。 TF 
合 要 求 的 变换 之 一 是 Iy 该 变换 称 为 Logistic 或 Logit 变换 。 这 种 对 线性 回归 的 输出 
进行 Logistic 变换 的 回归 称 为 逻辑 回归 。 
于 是 有 
ply = 1; w|z) T 


In ee =W g (1.34) 


求解 p(y = 1; wle) 可 得 
1 


可 (1.35) 


ply = 1; wx) = 
4 f(a; w) = ply = 1; w|z) W 
1 
Ipe uta) 


3XRCAEBUAT REA ED EH. 式 (1.30) 的 右边 部 分 又 称 为 Sigmoid 函数 。 
1.4 ”最 大 似 然 估计 求解 逻辑 回归 


1.3 节 中 得 到 了 逻辑 回归 的 函数 形式 (SX (1.36)), 下 面 来 求解 它 , 即 估计 参数 wo 与 
线性 回归 一 样 , 要 先 选 定 一 个 评价 函数 作为 最 优 拟 合 的 标准 。 线 性 回归 中 选择 了 最 小 二 
乘 ,并 通过 高 斯 - 马尔 可 夫 定理 说 明了 在 满足 若干 假设 条 件 时 ， 最 小 二 乘法 是 线性 回归 
的 最 优 线性 无 偏 估计 。 对 于 逻辑 回归 ,是 否 依然 可 以 使 用 最 小 二 乘 作为 评价 函数 呢 ? 当 
然 可 以 , 将 在 第 3 章 “ 经 验 风险 最 小 ”中 讲解 , 几乎 所 有 的 有 监督 学 习 算 法 都 可 以 使 用 最 
小 二 乘 作为 评价 函数 。 但 在 这 里 , 我 们 暂时 放弃 最 小 二 乘 , 选择 另 一 种 评价 函数 一 一 最 
大 似 然 。 将 在 后 面 的 章节 中 探讨 二 者 的 关系 , 并 在 第 2 章 “ 广 义 线性 模型 ” 中 解释 选择 最 
大 似 然 的 原因 。 

最 小 二 乘 实 际 上 是 令 关 于 参数 w 的 预测 误差 平方 和 的 函数 最 小 。 同 样 地 , 最 大 似 然 
也 会 有 一 个 关于 参数 w 的 似 然 函数 , 并 且 令 这 个 似 然 函数 最 大 。 似 然 函数 是 统计 中 的 概 
念 , 表示 模型 参数 的 似 然 性 , 通常 定义 为 


f(x; w) = p(y = 1; w|x) = (1.36) 


L(w; X) = p(X; w) (1.37) 


既然 L(w; X) 和 p(X; w) 是 相等 的 , 二 者 有 什么 区 别 呢 ? 首先 p(X; w) 的 意义 很 明 
确 , 它 指 的 是 在 模型 参数 为 w 的 时 候 , 观察 到 数据 X 的 概率 ; 而 C(w; X) 则 定义 了 在 
观察 到 一 组 数据 X 的 时 候 , 模型 参数 取 值 为 w 的 可 能 性 。 统计 中 这 个 可 能 性 被 称 为 似 
然 度 。 上 面 的 公式 表示 , 给 定数 据 后 参数 的 似 然 度 等 于 给 定 参数 后 观测 到 该 组 数据 的 概 
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率 。 尽管 这 两 个 值 是 相等 的 , 但 似 然 度 和 概率 关心 的 是 两 个 完全 不 同 的 问题 一 一 一 个 是 
关于 模型 参数 的 , 另 一 个 是 关于 样本 数据 的 。 显然 , 在 似 然 函数 的 定义 下 , 最 优 的 参数 即 
为 最 有 可 能 ( 似 然 度 最 大 ) 观测 到 数据 集 X 的 参数 w, 在 最 优 参数 处 似 然 函数 取 到 最 大 
值 。 这 就 是 为 什么 这 种 方法 被 称 为 最 大 似 然 估计 的 原因 。 
现在 回 到 求解 逻辑 回归 的 主线 上 来 。 假 设 样本 (2 yO) 之 间 相互 独立 , 观测 到 数据 
集 (X, y) 的 概率 为 所 有 样本 (2, yO) 出 现 概率 的 乘积 , 则 似 然 函 数 为 


L(w; X,Yy)=p(X,Y;w) (1.38) 


-[»99; wie) (1.39) 
i=1 
-Jret w a- s2; wy)” 
i=1 
下 面 的 任务 就 是 使 用 最 大 似 然 估计 进行 求解 。 上 面 的 总 概率 表达 式 是 连 乘 的 形式 ， 
难以 微分 , 对 于 这 样 的 表达 式 通常 是 通过 对 其 取 自 然 对 数 ， 把 乘积 变 成 求 和 之 后 再 求 极 


值 。 定义 对 数 似 然 函数 


(1.40) 


£(w) =In £(w; X, y) 141) 
= In f(z 2; w) + (1 — y?) In(1 — f(z 9; w)) 1.42) 

i=1 
= i i f(a; w) 
=e n(1— f(x; eats 1.43) 
-yn 1— f(a; w)) You? g 1.44) 
i=1 i=1 
y In(1 + e?) 4 Syd wT a) 1.45) 
i=1 i=1 


5X (1.43) 与 式 (1.44) 使 用 了 logit 变换 的 定义 式 (1.34); 5X (1.44) 与 式 (1.45) 使 用 了 逻辑 
回归 的 定义 式 (1.36). 

我 们 要 求 的 是 对 数 似 然 函 数 的 最 大 值 , 因此 把 对 数 似 然 函数 对 参数 w 的 每 一 个 分 量 
wi 求 导 并 令 其 等 于 0 


de Hew! O, NC Ou 
_ OES SOR 1.46 
= L irene j dy f (1.46) 
n E s 
=》 y - f(2®; w))a(? (1.47) 


i=1 


其 中 zy 表示 样本 aO 的 第 j 个 分 量 。 
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dh 


n :———— — — 


令 上 式 等 于 0 后 我 们 发 现 , 得 到 的 方程 并 不 能 像 最 小 二 乘法 那样 计算 出 解析 解 ， 只 
能 使 用 梯度 下 降 或 者 进化 算法 等 迭代 算法 进行 数值 求解 , 关于 梯度 下 降 法 的 内 容 将 在 第 
8 章 进行 介绍 。 


1.5 ”最 小 二 乘 与 最 大 似 然 


1.5.1 ”逻辑 回归 与 伯 努 利 分 布 


在 1.3 节 中 可 以 看 到 , 在 线性 回归 和 逻辑 回归 之 间 存 在 着 一 定 的 联系 ， 那 是 因为 给 
两 者 分 别 选 择 的 评价 函数 一 一 最 小 二 乘 和 最 大 似 然 之 间 有 什么 关系 吗 ? 在 回答 这 个 问题 
之 前 , 先 对 逻辑 回归 进行 更 加 深入 的 探讨 。 观察 逻辑 回归 的 似 然 函 数 (ZK (1.40)), 如 果 所 
有 的 样本 sO 都 相同 ,那么 所 有 的 f(c; w) 都 应 该 相等 ( 记 为 p) 则 似 然 函 数 变 为 


4) m o] 
I[»^a-»- (1.48) 
f=1 


很 明显 这 是 一 个 用 n 重 伯 努 利 试验 结果 来 估计 伯 努 利 分 布 中 参数 p 的 似 然 函 数 。 对 
于 逻辑 回归 , 绝 大 部 分 的 样本 z 是 不 同 的 , WRA n 重 伯 努 利 试验 的 角度 来 理解 , 3E. 
辑 回归 的 似 然 函 数 (SK (1.40)) 对 应 于 次 p 不 断 改变 的 伯 努 利 试验 , 即 每 次 试验 中 的 伯 
努 利 分 布 (参数 记 为 pi) 可 能 都 不 相同 。 可 以 看 出 , 每 个 pi 都 是 由 其 对 应 的 o0 和 它们 
共享 的 w 所 确定 , 所 以 pi 之 间 是 存在 约束 的 。 这 个 约束 就 是 逻辑 回归 所 暗含 的 假设 : 相 
AM CO 对 应 的 p; 及 背后 的 伯 努 利 分 布 是 相同 的 , 相似 的 nO 对 应 的 pi; 及 背后 的 伯 努 
利 分 布 也 应 该 是 相似 的 。 这 个 约束 通过 逻辑 回归 的 参数 w 传递 给 训练 集 之 外 的 r， 从 而 
达到 泛 化 (Generalize) 的 效果 。 

通过 上 面 的 分 析 已 经 知道 , 每 个 样本 rO 都 会 对 应 一 个 伯 努 利 分 布 ， 而 逻辑 回归 希 
望 计算 的 是 给 定 cO 之 后 yO = 1 的 期 望 , 也 就 是 说 我 们 认为 yO 服从 2 所 确定 的 那 
个 伯 努 利 分 布 


n 


y® ~ B(p;) (1.49) 


逻辑 回归 计算 得 到 的 是 yO [5938 EO), 而 服从 伯 努 利 分 布 的 随机 变量 的 期 望 就 是 伯 
努 利 分 布 的 参数 pi BR 


1 
1+e-(w'®) 


E(y) =p = f(z; w) (1.50) 
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1.5.2 ”线性 回归 与 正 态 分 布 


如 果 在 给 定 z 之 后 , 假设 yO 服从 的 不 是 伯 努 利 分 布 而 是 正 态 分 布 , 会 得 到 怎样 
的 结果 呢 ? 在 1.2 节 中 , 假设 oO 和 yO 在 函数 关系 的 基础 上 二 加 了 一 个 随机 误差 ( 式 
(1.11)), 该 随机 误差 均值 为 0 且 独 立 于 s, 若 再 假设 该 随机 误差 服从 正 态 分 布 , 即 


e ~ N(0,07) 181) 


TW y 也 服从 正 态 分 布 
yO ~N(wl 2,0?) 1.52) 


现在 用 最 大 似 然 作 为 评价 函数 来 估计 yO 所 服从 的 正 态 分 布 中 的 参数 w。y 的 概率 为 


e^ 27 (wl al)? 1.53) 


$- 2 
PWN) = A 
yO 相互 独立 , 则 似 然 函 数 为 


1 L(y) y T (2 
£(w; X)= “ary —wi a) 1.54 
|| ; 

1 -z By -w7 2)? 
= E 1.55 
(V2ra2 ne ) 
对 似 然 函数 取 自然 对 数 得 到 
Lae Ey -wT 2)? 
£(w)-In———e ”各 1.56 
(w) = 7" ) 
1 na i 
=—nIn(V2n02) 一 35 2,0 ) aa)? 1.57) 
若 对 数 似 然 函数 在 wue 处 取 到 最 大 值 , 则 
WMLE — arg max £(w) (1.58) 
LS ti i 
=arg max —nIn(V 2x0?) 一 a5 2 )— wha)? (1.59) 
—argmax — Y (y? —wg?) (1.60) 
= i=1 
=arg min > .00 — wile)? (1.61) 
vod 

— wisE (1.62) 


对 于 线性 回归 ， 最 大 似 然 估 计 与 最 小 二 乘法 等 价 。 严 格 来 讲 是 当 假设 y 服从 正 
分 布 时 ， 最 大 似 然 估 计 与 最 小 二 乘法 对 线性 回归 的 参数 估计 是 等 价 的 。 不 同 的 y 服从 
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均值 不 同 但 方差 相同 的 正 态 分 布 , HEX BA Hw o0 所 确定 , 线性 回归 最 终 计算 得 到 的 
yO 的 期 望 。 

上 面 一 系列 的 分 析 结果 暗示 线性 回归 与 逻辑 回归 以 及 最 小 二 乘 与 最 大 似 然 之 间 还 存 
在 着 更 深层 次 的 联系 , 这 将 在 第 2 章 “ 广 义 线性 模型 ”中 更 加 深入 地 进行 探讨 。 


1.6 小结 


作为 本 书 的 开篇 部 分 ， 本 章 首先 通过 变量 之 间 的 两 种 关系 函数 关系 和 统计 关 
系 , 引入 了 最 简单 的 统计 关系 分 析 模 型 一 一 线性 回归 。 简单 介绍 了 线性 回归 之 后 , 我 们 
提出 了 “最 优 ” 拟 合 直线 的 概念 。 对 于 模型 而 言 ， 只 有 在 确定 评价 标准 之 后 才能 评定 最 
优 。 在 评价 标准 选择 中 ,讨论 了 数理 统计 与 机 器 学 习 之 间 的 异同 与 关联 。 之 后 从 统计 的 
角度 出 发 , 选 定 了 最 小 二 乘 作为 线性 回归 的 评价 函数 。 高 斯 - 马尔 可 夫 定 理 告 诉 我 们 , 在 
噪声 独立 于 观测 数据 、 均值 为 0、 满 足 同方 差 时 , 最 小 二 乘法 是 线性 回归 的 最 优 线性 无 偏 
估计 。 

在 有 些 问 题 中 我 们 需要 预测 的 值 是 二 分 类 的 , 此 时 由 于 线性 方程 值 域 的 不 匹配 , 没 
有 办 法 直接 使 用 线性 回归 。Sigmoid 函数 可 以 把 线性 方程 的 值 域 从 (—oo, +co)“ 挤 压 ” 到 
(0,1) 上 ,从 而 得 到 了 逻辑 回归 。 此 时 我 们 没有 继续 使 用 最 小 二 乘 作为 逻辑 回归 的 评价 函 
Bl, 而 是 选择 了 最 大 似 然 。 虽然 在 本 章 中 并 没有 给 出 这 样 选择 的 原因 , 但 我 们 对 二 者 的 关 
系 进行 了 初步 探讨 。 在 进行 逻辑 回归 建 模 的 时 候 ，, 其 实在 背后 假设 了 模型 的 输出 服从 伯 
努 利 分 布 ; 而 线性 回归 对 应 的 是 正 态 分 布 。 最 后 通过 数学 推导 表明 , 在 这 样 的 假设 下 对 
线性 回归 进行 参数 估计 时 最 小 二 乘法 等 价 于 最 大 似 然 估 计 。 

线性 回归 和 逻辑 回归 分 别 覆 盖 了 预测 连续 变量 和 二 分 类 变量 的 情况 , 如果 预测 变量 
是 其 他 类 型 该 如 何 处 理 , 通过 Sigmoid 函数 “ 挤 压 ” 线 性 回归 的 值 域 得 到 了 逻辑 回归 , 然 
而 很 多 函数 都 可 以 把 (—oo, +00) “HEHE” Bi) (0,1) 上 , 为 何 单单 选择 Sigmoid 函数 呢 ? 本 
章 的 分 析 提 示 线 性 回归 与 逻辑 回归 以 及 最 小 二 乘 与 最 大 似 然 之 间 还 存在 着 更 深层 次 的 联 
KR, 这 种 联系 背后 的 本 质 是 什么 , 将 在 第 2 章 “ 广 义 线性 模型 ”中 回答 第 一 个 问题 , 并 更 
加 深入 地 探讨 最 大 似 然 估计 。 在 第 3 章 “ 经 验 风 险 最 小 ”中 会 讨论 最 小 二 乘 与 最 大 似 然 
等 不 同 评价 函数 的 本 质 。 
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2.1 ”广义 线性 模型 概述 


2.1.1 “广义 线性 模型 的 定义 


在 第 1 章 中 通过 Sigmoid 函数 “ 挤 压 ”线性 回归 的 值 域 得 到 了 逻辑 回归 : 由 于 希望 
的 输出 y 的 值 域 与 线性 回归 拟 合 出 来 的 wl a 的 值 域 不 匹配 ,于 是 对 y 进行 了 Logit 变 
换 进 而 得 到 了 一 个 关于 y 的 函数 ( 记 为 g(y)), 且 该 函数 的 值 域 为 (一 co,+co)， 继 而 就 可 
以 继续 使 用 线性 回归 并 最 终 得 到 gly) = wl x ( 式 (1.33)) 


=w's (2.1) 


求解 上 式 中 的 y 就 得 到 了 Sigmoid 函数 


1 


TIU 22) 


y= 


然而 ， 很 多 函数 都 可 以 把 we 的 值 域 从 (—00,+00) 变换 到 (0,1) 上 (如 下 面 的 式 
F) 为 何 选择 Sigmoid 函数 呢 ? 


y= 5 (tanh(w2) +1) 


还 有 一 个 问题 是 : 对 于 需要 预测 的 值 是 二 分 类 的 问题 , 可 以 使 用 逻辑 回归 , 而 如 果 需 
要 预测 变量 是 多 分 类 或 者 是 整数 , 如 某 个 事件 发 生 了 多 少 次 , 又 或 者 与 时 间 相关 , 如 部 件 
寿命 等 , 我 们 要 如 何 对 线性 回归 的 值 域 进 行 变化 呢 ? 
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对 于 第 一 个 问题 , 后 面 的 分 析 中 会 看 到 在 一 定 的 假设 下 选择 Sigmoid 函数 是 一 种 必 
AR. 关于 第 二 个 问题 , 在 前 面 的 分 析 中 已 经 看 到 , 线性 回归 对 应 着 正 态 分 布 , 逻辑 回归 对 
应 的 是 伯 努 利 分 布 ,那么 很 自然 地 可 以 联想 到 , 不 同类 型 的 预测 变量 是 否 对 应 着 不 同类 
型 的 分 布 呢 ? 从 广义 线性 模型 (Generalized Linear Model, GLM) 的 角度 来 看 , 确实 是 这 
样 的 。 所 谓 的 广义 线性 模型 ， 便 是 沿 着 这 个 思路 对 线性 回归 进行 了 扩展 。 下 面 给 出 广义 
线性 模型 的 正式 定义 。 

广义 线性 模型 由 以 下 三 部 分 组 成 。 

(1) 随机 成 分 (Random Component): 定义 了 输出 变量 y 在 给 定 输入 变量 r 时 的 条 
件 分 布 (Conditional Distribution)。 一 般 情况 下 ,我们 接触 到 的 分 布 都 属于 指数 分 布 簇 
(Exponential Families), 如 高 斯 分 布 (Gaussian/Normal)、 伯 努 利 分 布 (Bernoulli), 二 项 分 
Afi (Binomial)、 泊 松 分 布 (Poisson)、 伽 玛 分 布 (Gamma) 等 , 如 今 广义 线性 模型 已 经 拓展 
至 多 变量 指数 分 布 复 (Multivariate Exponential Families), 非 指数 分 布 簇 (Non-exponential 
Families), 甚至 y; 的 分 布 未 完全 定义 的 情况 。 本 书 把 这 部 分 的 讨论 局 限 在 指数 分 布 簇 上 。 

(2) 线性 预测 器 (Linear Predictor): 即 线性 回归 部 分 


19 = w' a9 = wo + wis + wsh +--+ wna 
这 就 是 广义 线性 模型 中 的 线性 部 分 。 注意 不 同 的 样本 20 会 有 不 同 的 7G) 。 
(3) 链接 函数 (Link Function): 一 个 光滑 (Smooth) H.uf3É (Invertible) 的 函数 9(.)， 
对 预测 变量 的 期 望 E(y) 进行 变换 , 使 得 变换 后 的 g(E(y)) 与 线性 预测 器 相 匹配 


g(E(y)) = 19 = wo + wie + woah? +--+ wna 


在 逻辑 回归 中 , 选取 的 链接 函数 为 Logit 变换 。 

广义 线性 模型 的 定义 可 以 看 作 是 期 望 输出 变换 后 的 线性 模型 或 者 期 望 输出 的 非 线性 
模型 。 

现在 再 来 看 一 下 “逻辑 回归 ”。 对 照 广义 线性 模型 的 定义 ,逻辑 回归 中 的 线性 预测 器 


就 是 线性 回归 部 分 w'e, 链接 函数 即 Logit 变换 Im 7 A 7 而 随机 成 分 就 是 y 服从 的 伯 努 


利 分 布 。 其 中 线性 预测 器 和 随机 成 分 都 很 好 理解 , 链接 函数 的 作用 是 把 线性 预测 器 wTz 
拟 合 出 来 的 结果 约束 到 二 项 分 布 。 这 其 实 就 是 逻辑 回归 的 链接 函数 Logit 变换 的 原因 。 在 
第 1 章 “ 线 性 回归 与 逻辑 回归 ”中 已 经 知道 , 由 于 逻辑 回归 的 形式 是 Sigmoid 函数 (Logit 
变换 函数 的 反 函 数 ), 其 似 然 函数 的 形式 与 估计 伯 努 利 分 布 参数 的 似 然 函 数 一 致 ,这 就 提 
示 正 是 Logit 变换 /Sigmoid 函数 决定 了 预测 变量 服从 的 分 布 为 伯 努 利 分 布 。 虽 然 在 第 1 


H 
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章 中 是 通过 对 预测 变量 的 值 域 变换 次 出 了 Logit 变换 , 但 在 广义 线性 模型 看 来 , 真正 
顺序 如 下 。 

(1) 假设 预测 变量 服从 的 分 布 , 如 逻辑 回归 中 的 伯 努 利 分 布 。 

(2) 根据 预测 变量 服从 的 分 布 确定 链接 函数 的 形式 。 

(3) 令 链接 函数 等 于 线性 预测 器 并 进行 拟 合 。 

下 面 来 讨论 如 何 根据 分 布 来 确定 链接 函数 的 形式 。 


2.1.2 ”链接 函数 与 指数 分 布 艇 


广义 线性 模型 的 随机 成 分 在 大 多 数 情 况 下 都 属于 指数 分 布 篮 ， 该 侯 的 分 布 几乎 覆盖 
了 统计 中 绝 大 多 数 重要 的 分 布 ， 属 于 该 马 的 分 布 都 可 以 表示 成 如 下 通 式 


yo — b(0) 
a(ó 


p(y; 9, >) = exp (9) +c(y, à) (2.3) 


dep. 

(1) p(y; 0,6) 是 随机 变量 y 的 概率 函数 (离散 ) 或 概率 密度 函数 (连续 )。 

(2) a(-). b(-) 和 c(-) 是 3 个 函数 , 不 同 的 分 布 中 这 3 个 函数 也 不 同 , 这 3 个 函数 共 
同 确定 了 分 布 的 种 类 。 

(3) 9 是 一 个 未 知 参数 , 称 为 标准 参数 (Canonical Parameter). 

(4) 6 称 为 分 散 参 数 (Dispersion Parameter), 该 参数 具有 关系 o > 0, 在 某 些 分 布 中 
已 知 且 固 定 , 在 其 他 分 布 中 未 知 , 需要 与 标准 参数 9 一 起 进行 参数 估计 。 

对 于 一 个 分 布 ,往往 最 关心 的 两 个 量 是 服从 该 分 布 的 随机 变量 y 的 均值 pe 和 方差 
Var(y)。 指 数 分 布 簇 的 均值 和 方差 在 表示 为 通 式 ( 式 (2.3)) 后 具有 如 下 性 质 


u=b'(0) (2.4) 
Var(y) =b" (0)a(¢) (2.5) 


d? 


ge (0. 接着 来 简 


其 中 V(O) 表示 bO) 的 一 阶 导数 TO), V^(6) 表示 DO) 的 二 阶 导数 
单 证 明 一 下 这 两 个 性 质 。 

首先 引入 两 个 概念 : 动 差生 成 函数 (Moment Generating Function, MGF) 和 累积 量 生 
成 函数 (Cumulant Generating Function, CGF). HARA “Hit” PAY “FA”, 所 以 动 差 


生成 函数 也 被 称 为 矩 母 函数 。 动 差生 成 函数 的 定义 为 


M,(t) = Ee”) (2.6) 
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将 M 对 求 时 (并 交换 期 望 和 微分 ) 可 以 得 到 
Mj(t) - Eye?) 
M'(t) =E(y?e"”) 
以 此 类 推 , 可 有 3-0) = Eget). 在 t=0 时 
MI(0) =E(y) 
MY(0) -E(y?) 
同样 可 以 推出 S7 (0) = EQ). 因此 通过 式 (2.6) 可 以 得 到 不 同 阶 的 矩 ( 动 差 ) 所 以 
称 其 为 动 差生 成 函数 。 而 累积 量 生成 函数 定义 为 动 差生 成 函数 取 自 然 对 数 


K,(t) = In M,(t) (2.7) 
类 似 地 , 令 Ky (t) 对 t 求 导 可 得 
(qs My(t) 
KOTA 
nu, _ My(t) My (t) - M; (t)? 
KY(t)= — mo 
同样 地 , + t=0 得 到 
K,(0)=E(y) 2 u (2.8) 
K7(0) - E(y?) — E? (y) = Var(y) (2.9) 


其 中 为 vy 的 均值 ， Var(y) 为 y 的 方差 。 有 了 累积 量 生成 函数 之 后 ， 结 合 指数 分 布 艇 的 
通 式 (A (2.3)) 以 及 累积 量 生成 函数 定义 式 ( 式 (2.7)) 可 以 得 到 指数 分 布 入 的 累积 量 生成 
函数 


K,(t) = mom (2.10) 
X (2.10) 对 t 求 导 得 到 


sy ¥(O-+a(¢)t)a(¢) 
Kyo 7 7 a) 
KY) - V (8 + a()t)a(d) 


= (0 + a(¢)t) 


令 其 中 的 t=0 则 
K,(0)=b'(8) 
K, (0) =6"(9)a(¢) 
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于 是 便 证 明了 式 (2.4) MA (2.5). 

经 过 第 1 章 的 分 析 已 经 知道 , 广义 线性 模型 拟 合 得 到 的 是 预测 变量 y 的 期 望 Ey), 
而 期 望 E(y) 就 是 y 所 服从 分 布 的 均值 us 于 是 预测 变量 y 就 和 假设 它 服从 的 分 布 产生 
了 关系 

E(y) = b'(0) 2.11) 


设 b'(0) 的 反 函 数 为 -1(9), 则 式 (2.11) 可 以 变换 为 


V- (E(y)) =0 2.12) 


在 广义 线性 模型 中 , 我 们 认为 0 和 样本 数据 集中 的 特征 有 线性 关系 ,因此 使 用 线性 回归 
KWE 0, 也 就 是 说 9 等 于 线性 分 类 器 n 于 是 便 有 了 下 面 的 关系 


(Ey) -06-n-w'z (2.13) 


根据 广义 线性 模型 的 定义 可 知 ，%-:!(.) 即 为 链接 函数 g(-)。 因 此 可 以 看 出 链接 函数 
是 由 预测 变量 服从 的 分 布 决定 的 。 

最 后 再 来 看 看 逻辑 回归 。 首 先 把 假设 预测 变量 y 服从 的 伯 努 利 分 布 写成 指数 分 布 簇 
通 式 (A (2.3))， 设 伯 努 利 分 布 中 y = 1 的 概率 为 p 


p(y; p) - p" (1 — p)" 


2 人 22] 


令 9= 了 让 便 可 以 得 到 伯 努 利 分 布 的 通 式 形式 


—D 


v0.6) = op [EEEE 5 o 


20 naža: 算法 首 后 的 理论 与 优化 EC 


其 中 al) = 1, b(8) = In(1 +e), c(y, à) = 0。 通过 5(9) 可 以 得 到 逻辑 回归 的 链接 函数 
b'-1(0) 


¥(0)=— 


E 
" 8 
w- (0) -In .— 
即 为 Logit 变换 。 
同样 地 , 正 态 分 布 (uo?) 的 通 式 形式 为 
= 2 
p(y) = exp wn = ix = 5 In(2x0?) (2.14) 


其 中 b(u) =u? /2, W t (u) = u 正 态 分 布 对 应 的 广义 线性 模型 的 链接 函数 为 071 (u) = 
该 模型 的 表达 式 为 


E(y-w'z 


正 是 线性 回归 。 
2.2 ”广义 线性 模型 求解 
每 个 广义 线性 模型 都 对 应 了 一 个 指数 分 布 马 中 的 分 布 ， 因 此 广义 线性 模型 天 然 适合 


使 用 最 大 似 然 估计 求解 。 把 数据 集中 的 样本 代入 对 应 的 概率 (密度 ) 函数 中 后 再 连 乘 起 来 
就 得 到 了 似 然 函 数 


_ ; 
£(6,6 y) -[ 75e P+ oy, ) 


对 数 似 然 函 数 为 


nye — pti) 
((8,6:y) = 2 A +e(y, 4) 


假设 o 已 知 , 且 由 式 (2.13) 我 们 已 经 认为 69 = wz 四, 将 其 代入 (0,6; y), 对 数 似 
然 函 数 就 变 成 了 关于 w 的 函数 


noa wa — b(wa 
(ue Da d estu 


当 对 数 似 然 函数 取 到 最 大 值 时 的 参数 w 就 是 我 们 寻找 的 参数 


TI prf PARERA 。 


WMLE —arg max £(w) 
w 


n Wyte —b(wa® ; 
argmax) ewe) t+e(y, g) (2.15) 
v #1 


以 线性 回归 为 例 , ÆR (2.14) F, 0— p= we, $= 07, a(9) = ¢ = 07, b(0) 
67/2, c(y,¢) = -5 = 5 in(2x¢), 代入 式 (2.15) 得 到 


2 y9wla® —(w'az9)/2 (y?) 1 


WMLE =argmax > ， EI MEC xS In(2x9) 2.16) 
i=1 
n 
2y0w ae — (wg (0)? — (y(0)? 
一 arg max ) > 一 -一 一 2.17) 
Ed i=1 20 
5 r j , 
—argmax 》 ^ 2y w" z (0 — (wl a)? — (y(0? 2.18) 
w 
=1 
' n 
—argmax — Y ((y®) — (wl a))? 2.19) 
n g A 
=arg min > (0 -wlg?y? 2.20) 
w i= 
=WLSE 2.21) 


我 们 再 一 次 从 广义 线性 模型 的 角度 证 明了 ,对 于 线性 回归 , 在 假设 预测 变量 服从 正 
态 分 布 时 , 最 大 似 然 估计 等 价 于 最 小 二 乘法 。 


2.3 ”最 大 似 然 估 计 : Fisher 信息 


在 本 书 最 开始 部 分 已 经 讲 过 , 当选 定 某 个 评价 函数 作为 选取 “最 优 ” 的 标准 时 , 一 定 
要 搞 清 楚 这 个 评价 函数 好 在 哪里 。 在 本 节 中 来 解释 为 什么 最 大 似 然 估计 是 “好 ”的 评价 
函数 。 

首先 引入 一 个 新 的 概念 Fisher 信息 (Fisher Information)。 设 随机 变量 x 连续 ， 
其 概率 密度 函数 为 f(z;9), 则 对 数 似 然 函数 为 £(8) = In f(z;9), 并 记 4(9) 和 4(9) 分 别 
为 £(0) 对 9 的 一 阶 和 二 阶 导 数 。Fisher 信息 Z(0) 定义 为 


20) = E. (0) = | t6 fs; (2.22) 


下 面 来 理解 一 下 Fisher 信息 的 意义 。 在 任意 一 点 Oo 处 对 数 似 然 函数 的 一 阶 导 数 


_ f(z;00) 


£'(80) = (In f(z;00)) F(a; 00) 
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衡量 的 是 概率 密度 函数 在 0 处 关于 参数 0 的 变化 , 即 当 在 0o 处 给 9 一 个 微小 变化 的 时 
候 概率 密度 函数 f(z;9) 的 变化 量 。 这 个 变化 量 可 正 可 负 , 对 其 进行 平方 运算 后 再 取 关于 
c 的 期 望 便 得 到 了 Fisher 信息 。 因 此 Fisher 信息 衡量 的 是 概率 密度 函数 关于 参数 9 在 整 
个 和 上 的 平均 值 。 如 果 Fisher 信息 很 大 , 说 明 分 布 对 参数 9 很 敏感 ， 当 9 变化 的 时 候 分 
布 也 会 随 之 发 生 很 大 变化 ,所 以 不 同 的 9 所 确定 的 分 布 也 会 明显 地 不 同 。 这 就 意味 着 能 
够 根据 观测 数据 比较 准确 地 估计 9。 而 如 果 Fisher 信息 比较 小 的 时 候 , 9 的 改变 并 不 能 
够 对 分 布 产生 太 大 的 影响 , 则 基于 观测 数据 的 参数 估计 效果 就 会 比较 差 。 
Fisher 信息 同样 可 以 通过 对 数 似 然 函 数 的 二 阶 导 数 计算 得 到 


seo (Se s» 
- | (enn E 一 c f(z;0)dz 2.24) 
i. f" (2;0)dz — EU (0)?) 2.25) 
式 (2.25) 中 的 第 一 项 
| f" (2;0)dz = | 六 f(s = Fl, f(a; 0)dx = tan =0 2.26) 
第 二 项 
E+ (2 (0)°) = Z(0) 2.27) 
于 是 对 数 似 然 函数 关于 9 的 二 阶 导数 在 X 上 的 期 望 
Es(0”(0)) = —£(0) 2.28) 


现在 终于 可 以 开始 推导 本 节 希 望 给 出 的 关于 最 大 似 然 估计 的 结论 了 。 
设 最 大 似 然 估计 得 到 的 参数 为 ues n 个 样本 数据 的 对 数 似 然 函 数 bu(O)= 7 (0), 
SW buie 为 6, (0) 的 最 大 值 点 , 于 是 有 


{ln(OMLE)=0 (2.29) 
在 Ow 处 对 (9) 进行 一 阶 泰勒 展开 近似 
0={n(0MLE) © Ln(0) + Ln (0) (Omre — 0) (2.30) 
BER 9 未 知 的 真实 值 为 Orue 将 Orue 代入 式 (2.30) 替换 9 后 


Ln (Ome) © Ln (True) + La (OTrue)(OMLE — 0) (2.31) 


本 。 第 2 章 广义 线性 模型 


23 


| 


简单 的 代数 变换 之 后 得 到 


(0MLE — OTrue) © eee (2.32) 
首先 观察 式 (2.32) 右边 部 分 的 分 母 — (n) n 因为 6(gmuej/n = ZEO (Posse) B 


4 中 (GTrue) 的 均值 , 那么 根据 大 数 定理 及 式 (2.28), 有 


lim. — se) /n = Z(Orvue) 2.33) 
观察 式 (2.32) 右边 部 分 的 分 子 L (Orue)/n 根据 中 心 极限 定理 有 
Ln (OTrue) /n= (: Y t9 Onu) = ) 2.34) 
i=1 
- (: SECO Oras) - E (IO c=) 235) 
i=1 
—4, N(0, Var( 9 (Orrue))/n) 2.36) 


R (2.36) HEBD E, (COO) = |. faits = 0» 
而 式 (2.36) 中 正 态 分 布 的 方差 Var(/ 9 (Omewe)) 
Var(/ 9 (OTrue)) = Ez (0 0 (Orrue))? — (Ez (€™ (Orrue)))? = Z(Otrue) (2.37) 
结合 式 (2.32). I (2.33). 5X (2.36) 以 及 式 (2.37) 最 终 得 到 


bme >N (o (2.38) 


1 

SK (2.38) 说 明 , 当 数 据 样本 足够 多 时 , 最 大 似 然 估 计 得 到 的 参数 服从 以 参数 的 真实 值 
为 均值 的 正 态 分 布 , 且 该 正 态 分 布 的 方差 与 Fisher 信息 以 及 样本 数目 成 反比 , 即 Fisher 
信息 越 大 , 样本 数量 越 多 ， 最 大 似 然 估 计 得 到 的 结果 越 准确 。 


2.4 ”最 大 似 然 估 计 工 : KL HES Bregman KE 


2.41 KL BUE 


在 第 1 章 “ 线 性 回归 与 逻辑 回归 ”中 我 们 选择 最 大 似 然 作为 逻辑 回归 的 评价 函数 时 ， 
从 观测 到 样本 数据 概率 的 角度 定义 了 参数 的 似 然 函数 ( 式 (1.37)), 并 把 所 谓 的 “ 似 然 度 ” 
解释 为 模型 选择 该 参数 的 可 能 性 。 相 对 于 最 小 二 乘法 ， 这样 的 解释 并 不 是 很 直观 。 对 于 
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有 监督 学 习 这 样 的 预测 问题 ， 往 往 追 求 的 是 预测 值 和 真实 值 之 间 的 距离 最 小 。 最 小 二 乘 
法 追求 的 是 所 有 样本 上 预测 误差 平方 和 最 小 , 即 预测 值 和 观测 值 的 欧 氏 距离 最 小 。 本 节 
会 看 到 , 最 大 似 然 估 计 追 求 的 也 是 距离 最 小 , 只 不 过 这 个 距离 并 非 欧 氏 距 离 , 而 是 KL 散 
BE (很 多 时 候 也 称 为 KL 距离 , 下 面 会 看 到 KL 散 度 不 满足 三 角 不 等 式 , 因此 更 加 严格 的 
名 称 是 散 度 , 而 不 是 距离 )。 

KL 散 度 (Kullback-Leibler Divergence) 是 一 种 衡量 两 个 概率 分 布 之 间 相 似 性 (距离 ) 
的 度量 , 其 定义 为 

Dici) = | pie) Pas (2.39) 

KL 散 度 有 以 下 两 个 重要 的 性 质 。 

(1) 根据 Gibbs 不 等 式 可 知 DkL(pllg) > 0. 当 且 仅 当 p(x) = q(x) 时 等 号 成 立 。 

(2) KL 散 度 不 满足 对 称 性 , BI DkL(pllg) A DkrL(gqllp)。 

设 样 本 数据 集 的 真实 分 布 为 p(z), 经 验 分 布 为 pa) 所 谓 经 验 分 布 , 是 以 样本 出 现 
的 频率 作为 其 概率 的 分 布 , CE n 个 样本 数据 中 的 每 一 个 样本 上 都 分 配 2 的 概率 


F(x) = lys ~ 2) (2.40) 
i=1 
设 模 型 拟 合 的 分 布 为 p(z;9), 则 经 验 分 布 与 模型 分 布 之 间 的 KL 散 度 为 
Dic. Grips 0) =| i) ZEL (2.41) 
—-H(x) -| p(z)Inp(z;0)da (2.42) 


其 中 H(x) = | P(z)lnp(z)dz 表示 p Hi. RAAD KL 散 度 在 grkr 处 取 到 最 小 
值 , 则 


OkL = arg min Dxu(P(z)||p(@; 0)) (2.43) 
=argmax | P(x) Inp(a; 0)da (2.44) 
=argmax | AX — 2) Inp(z;6)dz (2.45) 
=argmax iapla0ig) (2.46) 


i=l 


=0MLE (2.47) 
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表明 最 大 似 然 估计 等 价 于 最 小 化 KL 散 度 。 

欧 氏 距离 和 KL 散 度 衡量 的 都 是 “距离 ”, 二 者 之 间 是 否 存在 联系 ? 接 下 来 更 加 深入 
地 讨论 一 下 “距离 "。 
2.4.2 Bregman ME 


大 家 已 经 看 到 , 最 小 二 乘法 和 最 大 似 然 估 计 优 化 的 目标 分 别 是 欧 氏 距离 和 KL 散 度 。 
事实 上 , 二 者 都 是 Bregman 散 度 的 特例 。 

Bregman 散 度 的 定义 如 下 。 

设 函 数 /是 一 个 定义 在 凸 集 0c R^ 上 的 可 导 且 严格 凸 的 函数 , F 定义 域 上 的 任意 
两 点 z,y EC, WE F 函数 上 的 Bregman 散 度 为 


D;(a\ly) = f(z) — f(y) - Vf(y)(z — v) (2.48) 


其 中 Vf(z) 为 f 函数 的 梯度 。 如 何 理解 式 (2.48)? 对 函数 f 在 y. 点 进行 泰勒 展开 


f) = VD y) + Rala) (2.49) 
Rn(z)=f(7)— f(y) - Vf(y)(z — v) (2.50) 


由 式 (2.50) 可 以 看 出 ，Bregman 散 度 就 是 函数 f(z) 在 y 点 进行 一 阶 泰勒 展开 的 余 项 
Rn(z), 即 函数 f(x) 与 其 自身 的 线性 近似 (一 阶 泰勒 展开 ) 之 间 的 “距离 ”( 图 2.1)。 


个 
f(z) 


v w £ 


图 2.1 Bregman 散 度 
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不 同 的 函数 具有 不 同 的 Bregman BU. 例如 , 34 f(x) = |l? 时 , 其 对 应 的 Bregman 
散 度 为 Dj(zlly) = le- yl 即 欧 氏 距 离 ; 而 当 f(p) = Oy iln p, MARHA, 其 
对 应 的 Bregman 散 度 为 Dj(pllq) = Tipe, 即 KL BUE. 


2.5 小结 


本 章 首先 提出 了 广义 线性 模型 的 概念 ,统一 了 线性 回归 和 逻辑 回归 。 事 实 上 几乎 所 
有 属于 指数 分 布 簇 的 分 布 都 对 应 了 一 个 广义 线性 模型 。 我 们 只 需 根据 预测 变量 的 形式 ( 连 
BE. 二 值 、 整数 等 ) 去 假设 其 服从 的 分 布 , 然后 再 由 分 布 确定 对 应 的 广义 线性 模型 的 链接 
函数 ,最 后 取 链 接 函 数 的 反 函数 就 得 到 了 模型 的 表达 式 。 紧 接着 对 指数 分 布 簇 进行 了 简 
单 的 介绍 。 所 有 属于 指数 分 布 秘 的 分 布 都 可 以 整理 成 式 (2.3) 的 通 式 形式 。 有 了 通 式 之 后 
就 可 以 很 快速 地 得 到 对 应 的 广义 线性 模型 的 链接 函数 ( 式 (2.13))。 因 为 从 广义 线性 模型 
的 角度 来 看 ， 预 测 变量 服从 某 一 个 分 布 ， 因此 广义 线性 模型 天 然 适合 使 用 最 大 似 然 估计 
求解 。 为 了 更 加 深刻 地 理解 最 大 似 然 估 计 ， 接 下 来 又 对 其 进行 了 更 加 深入 的 探讨 。 在 第 
一 部 分 探讨 中 , 通过 引入 Fisher 信息 , 发 现 当 数据 样本 足够 多 时 ， 最 大 似 然 估 计 得 到 的 
参数 服从 以 参数 的 真实 值 为 均值 的 正 态 分 布 , 且 该 正 态 分 布 的 方差 与 Fisher 信息 以 及 样 
本 数目 成 反比 。 在 第 二 部 分 探讨 中 , 通过 引入 衡量 两 个 概率 分 布 之 间 相 似 性 (距离 ) 的 度 
量 一 一 KL 散 度 , 我 们 发 现 最 大 似 然 估计 等 价 于 最 小 化 KL 散 度 。 之 后 为 了 探寻 欧 氏 距 
TAURI KL 散 度 这 两 个 “距离 ”度量 的 关系 , 又 引入 了 Bregman 散 度 并 说 明了 欧 氏 距离 和 
KL 散 度 是 Bregman 散 度 的 两 个 特例 。 泰勒 展开 分 析 表 明 Bregman 散 度 是 函数 与 其 自身 
的 线性 近似 (一 阶 泰勒 展开 ) 之 间 的 “距离 ”。 

在 本 章 的 最 后 部 分 已 经 看 到 ,对 于 有 监督 学 习 ， 模型 优化 的 目标 是 最 小 化 预测 值 与 
真实 值 (或 样本 数据 ) 之 间 的 “距离 ”。 从 这 个 角度 去 看 , 广义 线性 模型 背后 所 假设 的 分 
布 似乎 显得 有 些 多 余 。 在 第 3 章 “ 经 验 风险 最 小 ”中 会 正式 定义 “距离 ” 并 在 此 基础 上 
提出 损失 函数 的 概念 , 直接 地 让 模型 的 优化 目标 为 最 小 化 预测 值 与 样本 数据 的 “距离 ”; 
在 第 4 章 “ 结 构 风 险 最 小 ”中 将 进一步 提出 正则 化 的 概念 ， 以 期 望 模型 的 优化 目标 为 最 
小 化 预测 值 与 真实 值 的 “距离 ”， 从 而 提高 模型 的 泛 化 能 力 。 
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hapter 3 LJ 
经 验 风 险 最 小 


通过 逻辑 回归 算法 , 推广 泛 化 为 广义 线性 模型 , 我们 对 机 器 学 习 中 监督 学 习 有 了 初 
步 的 掌握 。 其 实 , 监督 学 习 , 尤其 是 其 中 一 部 分 传统 的 分 类 问题 , 能 够 进一步 泛 化 为 一 个 
统一 的 模型 , 称 为 基于 分 类 界限 (Classification Margin) 的 结构 风险 最 小 (Structural Risk 
Minimization) 模型 。 而 要 深入 解读 结构 风险 最 小 , 就 需要 理解 机 器 学 习 中 经 典 分 类 问题 
的 统计 学 习 基石 ， 就 是 经 验 风险 最 小 (Empirical Risk Minimization)。 本 质 上 ,结构 风险 
最 小 模型 就 是 经 验 风险 最 小 和 正则 化 (Reguralization) 的 组 合 。 有 了 结构 风险 最 小 , 我 们 
就 能 进一步 统一 逻辑 回归 、 广 义 线性 模型 之 外 分 类 算法 , 包括 支持 向 量 机 、AdaBoost 算 
法 等 。 

理解 基于 分 类 界限 的 经 验 风 险 最 小 ,就 要 首先 理解 什么 是 风险 , 其 次 需要 懂得 为 什 
么 要 经 验 风 险 最 小 ,再 次 明白 什么 又 是 分 类 界限 ,最 后 通过 经 验 风险 最 小 来 重新 认 知 逻 
辑 回 归 和 广义 线性 模型 。 只 有 在 认 知 了 经 验 风险 最 小 后 , 我们 才能 进一步 理解 为 什么 要 
结构 风险 最 小 和 什么 是 正则 化 。 


3.1 ”经 验 风险 与 泛 化 误差 概述 


大 家 已 经 很 直观 知道 , 分 类 的 算法 并 不 唯一 , 如 有 逻辑 回归 和 支持 向 量 机 算法 等 。 那 
么 就 有 个 很 直观 的 问题 , 那 就 是 哪个 算法 更 好 。 在 比较 算法 好 坏 的 时 候 , 有 两 种 模式 , 一 
种 脱离 具体 问题 , 绝对 的 比较 算法 。 另 外 一 种 不 脱离 具体 问题 , 相对 的 比较 算法 。 我 们 在 
历史 上 学 过 一 个 道理 , 就 是 不 能 脱离 历史 环境 来 评价 一 个 人 物 的 好 坏 。 其 实 , 这 里 也 有 类 
似 的 结论 , 一 个 算法 的 环境 或 者 上 下 文 , 就 是 针对 特定 的 具体 问题 , 即 不 能 脱离 具体 问题 
来 评价 一 个 算法 的 好 坏 。 有 定理 “没有 免费 的 午餐 ”(No Free Lunch Theorem) 告诉 我 们 ， 
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不 依赖 特定 问题 来 评价 算法 无 法 衡量 算法 的 好 坏 , 或 者 换 名 话说, 如果 均 匀 概 率 对 待 所 
有 可 能 问题 , 那么 不 同 算法 在 所 有 可 能 问题 域 上 的 期 望 是 相同 的 。 这 样 的 话 , 一 个 算法 如 
果 在 部 分 问题 上 表现 比 另外 一 个 算法 好 , 那么 这 个 算法 肯定 在 有 些 问题 上 表现 不 如 别 的 
算法 。 所以, 评价 一 个 分 类 算法 的 好 坏 ， 离 不 开 特定 的 具体 问题 , 如 图 3.1 所 示 。 


个 
A 
A A 
f ^s, 
ha 


问题 域 
图 3.1 没有 免费 的 午餐 定理 (No Free Lunch Theorem) 表明 评价 一 个 分 类 算法 的 
好 坏 依赖 具体 问题 


如 果 限 定 了 特定 的 具体 问题 , 在 评价 分 类 算法 的 时 候 , 还 有 个 限制 , 就 是 能 不 能 获得 
全 部 数据 集合 。 通 常情 况 下 ， 整 个 数据 集合 是 无 限 的 ,但 是 只 能 获得 一 个 有 限 的 样本 集 
合 。 结合 数 据 集合 , 又 有 了 新 的 问题 , 那 就 是 不 同 算法 , 在 不 同 数据 集合 上 评价 是 否 一 致 。 
尤其 是 在 一 个 有 限 的 样本 集合 上 的 评价 和 一 个 无 限 的 数据 集合 上 的 评价 是 否 一 致 ,如 果 
不 一 致 , 偏差 多 少 ? 其 实 ,在 不 同 数据 集合 上 对 同一 个 算法 的 评价 不 一 定 一 致 。 这 样 , 研 
究 偏差 多 少 , 变 得 十 分 有 意义 。 我 们 希望 知道 , 一 个 算法 比 另外 一 个 算法 在 有 限 的 样本 集 
合 上 要 好 , 那么 在 无 限 的 数据 集合 上 也 好 可 能 性 有 多 大 。 

评价 分 类 算法 好 坏 的 上 下 文 是 特定 的 具体 问题 ， 并 且 已 知 一 个 有 限 的 样本 集合 ， 对 
应 的 有 一 个 无 限 的 数据 空间 。 但 是 ， 以 上 的 讨论 都 在 比较 两 个 算法 的 好 坏 。 如 果 要 评价 
单个 算法 的 好 坏 呢 ? 这 时 需要 定义 一 个 标杆 , 对 于 特定 的 具体 问题 和 特定 数据 集合 下 , 表 
现 最 优 的 算法 。 有 了 这 个 标杆 , 其 他 算法 都 和 最 优 算 法 进行 对 比 。 那么 , 又 如 何 评价 这 个 
最 优 算法 呢 ? 就 是 和 理想 情况 进行 对 比 。 由 于 真实 数据 世界 存在 噪声 、 异常、 未 知 因素 等 
情况 , 那么 假定 最 优 算法 未 必 能 达到 理想 情况 是 合理 的 。 

举 个 简单 的 例子 , 假设 有 两 个 问题 Pi: X 一 Y, 根据 水 的 颜色 、 气 味 和 固体 悬浮 物 
(集合 X) 来 判断 水 质 是 否 合格 (集合 Y) 和 P: A 一 B, 根据 风力 、 温度 和 湿度 (集合 A) 


效果 
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来 判断 明天 是 否 有 雨 (集合 B). 我 们 有 3 个 算法 , 即 f, 逻辑 回归 、 户 支持 向 量 机 和 fa 
AdaBoost. 我 们 已 经 知道 , 当 有 无 穷 个 问题 (P, Pr,---, Poo} 时 , 我 们 说 fa E 户 在 这 所 
有 问题 上 效果 要 好 是 不 合理 的 。 那么 , 我 们 就 考察 对 于 P 问题 , 哪个 算法 好 。 这 时 引入 数 
据 集 合 例子 , X 为 全 国 大 型 湖泊 水 的 数据 空间 。 因 为 受 实际 限制 , 只 能 获取 到 其 中 部 分 样 
本 S € D, 例如 江苏 大 型 湖泊 水 的 样本 空间 , 其 中 DD = (X, Y) 是 全 部 数据 (Data), 即 全 国 
大 型 湖泊 水 和 对 应 水 质 的 数据 空间 。 当然, 算法 也 可 以 是 无 穷 多 种 类 的 (fas fo,… , foo}。 
这 样 , 对 于 问题 P 我 们 直接 能 得 到 的 是 有 限 算法 集合 — {fi fo, fa) 在 有 限 样本 集合 
S 上 最 佳 算法 frs (简写 为 fr) 这 样 我 们 就 在 3 个 算法 里 面 找到 合适 江苏 湖泊 水 判别 
水 质 是 否 合格 的 最 佳 算法 。 类 似 假定 无 限 数 据 空间 D 上 的 最 佳 算法 fS (PRESA fz), 这 
是 在 3 个 算法 里 面 找到 合适 全 国 湖泊 水 判别 水 质 是 否 合格 的 最 佳 算法 , 那么 可 以 明确 的 
是 ， 这 个 算法 在 全 国 湖泊 水 水 质 判 别 的 效果 上 肯定 要 比 前 面 的 效果 好 。 再 进一步 扩展 到 
无 限 算法 集合 {fr f2,… , fo) 上 的 最 佳 算 法 fs (8818378. 1*), 这 样 在 所 有 算法 里 面 , 找到 
的 适合 全 国 湖泊 水 判别 水 质 是 否 合格 的 最 佳 算法 , 这 个 算法 在 全 国 湖泊 水 水 质 判 别 的 效 
果 上 肯定 比 前 面 两 种 都 要 好 。 那么 , 这 3 个 最 佳 算法 之 间 效 果 的 关系 , 就 是 要 研究 的 泛 
化 误差 的 目标 。 


3.1.1 ”经验 风险 


有 了 上 文 对 问题 、 数 据 和 算法 的 关系 的 分 析 , 我 们 要 进一步 理解 经 验 风险 的 含义 。 在 
理解 经 验 风险 前 需要 理解 什么 是 风险 (Risk)。 风 险 是 损失 函数 (Loss Function) 在 数据 集 
上 的 期 望 。 但 是 , 我 们 得 不 到 整个 数据 集 , 那么 损失 函数 在 有 限 样 本 集 上 的 均值 , 就 是 经 
验 风 险 。 那 么 ,什么 是 损失 函数 呢 ? 就 是 算法 对 一 个 样本 的 估计 值 和 这 个 样本 对 应 的 真 
实 值 之 间 差异 的 评估 函数 。 例如, 我 们 有 江苏 10 个 湖泊 的 水 样本 , 那么 太湖 作为 其 中 一 
个 样本 , 算法 告诉 我 们 水 质 合格 , 但 是 真实 情况 是 太湖 水 质 不 合格 。 那么 算法 的 估计 值 和 
真实 值 之 间 就 有 了 差别 。 把 给 这 种 差别 打分 的 函数 , 称 为 损失 函数 。 例 如 , 太湖 水 质 估计 
的 不 正确 打 了 1 分 , 其余 9 个 湖泊 水 质 预测 成 功 损失 为 0 分 。 那么 10 个 湖泊 水 质 样本 
平均 下 来 损失 是 0.1 分 , 而 这 个 0.1 分 就 是 经 验 风 险 。 


3.1.2” 泛 化 误差 
前 面 提 到 的 3 种 最 佳 算法 fr. fe A ft, 在 样本 数据 集 S 上 的 损失 函数 (Loss Func- 
tion) 的 平均 称 为 各 自 的 经 验 风 险 (Empirical Risk)。 而 在 全 部 数据 集合 D 上 的 损失 函数 


的 期 望 , 就 称 为 各 自 的 真实 风险 (Ture Risk)。 其 中 f* 在 D 上 表现 最 优 , 那么 真实 风险 最 
小 , 它 的 风险 又 被 称 为 贝 叶 斯 风险 (Bayes Risk), 贝 叶 斯 风险 是 一 个 理论 上 算法 可 以 达到 
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的 最 小 的 风险 。 我 们 知道 fr 就 是 基于 有 限 样本 S 根据 经 验 风险 最 小 从 有 限 算 法 集合 F 
中 选 出 的 最 佳 算法 。 那 么 我 们 很 想 知道 它 的 真实 风险 ， 就 是 它 在 D 上 的 表现 。 并 且 , 也 
想 知 道真 实 风险 和 贝 叶 斯 风险 理论 最 佳 值 的 差距 , 这 就 是 我 们 想 探讨 的 泛 化 误差 。 

对 应 到 fe. fp 和 f* 的 真实 风险 , 可 分 为 3 层 理解 。 

(1) 理论 上 , 我 们 能 预测 多 好 ? 假设 f* 的 真实 风险 为 R*。 

(2) 如 果 限 制 在 有 限 算法 集 F 条 件 下 ， 我 们 能 预测 多 好 ? 假设 fe 的 真实 风险 为 
RI“ (fz). 

(3) 如 果 限 制 在 有 限 算法 集 王 和 有 限 样本 S 两 个 条 件 下 , 我 们 能 预测 多 好 ? 假设 fe 
的 真实 风险 为 R'n"e(fz). 

既然 是 限制 条 件 加 强 , 那么 大 范围 的 最 优 肯 定 优 于 子 范围 的 最 优 ，R* 风险 肯定 不 会 
大 于 Reve (fe), 而 RM (fe) 肯定 不 会 大 于 RY (fe). 这样 把 加 了 有 限 算法 集 F 限制 
后 的 n'r"e( £z) — R* 称 为 近似 误差 (Approximation Error). 而 将 进一步 加 样本 集合 卫 的 
限制 后 的 nirve(fz) — Re“ (fe) 称 为 估算 误差 (Estimation Error), 如 图 3.2 所 示 。 而 把 
两 个 限制 加 上 后 的 误差 ROM (fe) — R* 称 为 泛 化 误差 (Generalization Error)。 所 以 泛 化 
误差 是 近似 误差 和 估算 误差 之 和 。 这 样 区 分 的 好 处 在 于 , 在 考虑 估算 误差 的 时 候 , 不 要 考 
虑 算法 feT 的 目标 空间 T, RZE F CT. 而 在 考虑 近似 误差 的 时 候 , 不 要 考虑 如 何 
采样 得 到 样本 空间 S. 


3.2 ”估算 误差 与 近似 误差 


(1) 近似 误差 : 我 们 知道 新 的 算法 会 一 直 诞生 , 最 优 算法 本 身 就 是 一 个 理论 值 , 那么 
只 能 用 算法 集 来 近似 。 我 们 希望 尽 可 能 发 现 更 有 效 的 算法 去 逼近 理论 值 ， 但 是 永远 不 会 
达到 。 

(2) 估算 误差 : 我 们 知道 要 获得 全 部 数据 集 代 价 太 大 , 基于 有 限 样本 的 计算 , 不 管 在 
时 间 还 是 计算 资源 上 的 代价 都 是 很 大 的 , 因此 我 们 来 估算 全 部 数据 情况 下 的 误差 。 

(3) 泛 化 误差 : 对 算法 和 样本 都 有 限制 后 的 误差 是 真实 风险 的 误差 。 泛 化 就 是 指 从 这 
样 有 限 数据 算法 情况 下 到 没有 任何 限制 条 件 下 推广 会 有 误差 。 

要 强调 的 是 ， 上面 讲解 的 是 真实 风险 , 真实 风险 全 是 在 D 上 的 评估 。 而 这 样 的 全 数 
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据 集 的 评估 代价 过 于 巨大 。 相 比较 而 言 , 经 验 风 险 是 在 S 上 的 评估 。 WA, 泛 化 误差 考察 
的 最 优 算法 fr 就 存在 D 上 的 真实 风险 ( 泛 化 误差 ) 和 在 样本 集 S 上 的 经 验 风 险 之 间 的 
区 别 。 

QD 从 有 限 样本 来 看 jr 的 表现 ? fr 的 经 验 风险 标记 为 R"? fr)o 

Q 从 有 限 样本 来 看 fe 的 表现 ? fp 的 经 验 风险 标记 为 Rem?( 序 )。 特 别 要 注意 的 
是 ， REmP(ft) > Re fr), 因为 fr 的 定义 就 是 S 上 经 验 风险 最 小 的 算法 。 

引入 经 验 误差 之 后 , 再 来 看 估算 误差 pire (fie) — RO (FE), 我 们 也 引入 经 验 风险 进 
行 推理 。 


|| Rie (fr) = R"e ft) = || atr"* (f) = Re"? (fr) 十 Rene. fr) = Rír"*(f2)|l (3.1) 
< |R" (fr) - BR" (fr) || + |R? (fe) - RSF) (3.2) 


WR Re™P( fr) — RM (fF) > 0, 根据 RP FZ) > ner(fz), 那么 


0 « Re™?(fr) — R" (fz) < R™P(f}) — n'"*(f) 


WR Rerz( 产 ) — R"e fy) <0, 根据 ROM (FZ) < RO“ (fr), 那么 
0 < RY (fz) — ne"? (fr) < RP (fr) — Re"? (fr) 


根据 上 面 的 特征 ， 提 取 Ref) Rf), f € F 作为 研究 对 象 ， 如 果 对 于 vf e 
F,|R'r"«(f) — Re™P(f)|| < Q(F,S,6) 以 概率 1— 6 成 立 。 那么 , 就 可 以 把 估算 误差 设置 
一 个 上 限 了 。 

根据 前 面 推理 , 如 果 Rerz(jr) — Ref) 20 


[g^ (fr) — RSHI < [IR (fr) — RO"? (FF) + RPE) -REI (3.3) 
< 20(7,S,5) (3.4) 


WR Re" (fr) — RY (Fz) «0 


[R^ (fir) — R'*(f2)/| < R7" (Fr) — n"7(fz)]| + jg (f) - ne"0(fz)| (3.5) 
< 20(7,8,6) (3.6) 


所 以 , 给 估算 误差 找到 一 个 上 限 Rte fr) — R""*(fz)]| « 20(7,S,5)]|, 如 图 3.3 
所 示 。 
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Stuff (m.7) 


图 3.3 真实 风险 和 经 验 风险 之 差 的 上 限 


这 样 把 泛 化 误差 分 解 成 了 估算 误差 和 近似 误差 , 并 成 功 地 给 估算 误差 找 了 个 上 界 
|R^"*(fz) — R*|| < |n" *(fz) — n" (F) + RI (5) — Rl] (3.7) 
< 20(7,$,0) || R"**(f2) — R*|| (3.8) 


很 多 时 候 算法 的 目标 空间 T 是 一 个 未 知 空间 ， 所 以 近似 误差 的 分 析 在 近似 理论 
(Approximation Theory) 上 更 偏 基础 理论 , 离 实际 应 用 较 远 , 所 以 近似 误差 常常 被 工程 界 
忽视 。 但 是 估算 误差 对 算法 的 能 力 有 很 好 的 上 限 描述 , 对 具体 算法 集合 的 学 习 能 力 有 个 
估算 ， 所 以 往往 得 到 更 多 的 重视 。 那 么 这 种 算法 能 力 的 估算 有 什么 用 呢 ? 我 们 会 在 后 续 
欠 拟 合 和 过 拟 合 中 解释 。 

如 果 再 回 到 湖水 水 质 判 别 的 问题 , 我 们 在 江苏 的 湖水 样本 上 , LR、SVM 和 AdaBoost 
3 个 分 类 算法 中 挑选 了 最 优 的 算法 , 如 SVM, SVM 在 全 国 湖水 水 质 检测 中 的 真实 风险 和 
采用 所 有 可 能 算法 在 全 国 检 测 中 的 真实 风险 (Bayes 风险 ) 的 差异 为 泛 化 误差 。 如 果 采 用 
0-1 RR, 那么 真实 风险 就 是 错误 率 (Error Rate), 也 就 是 1 减 去 准确 率 。 如 果 假 定 贝 叶 
斯 风险 对 应 的 错误 率 为 0, 而 SVM 对 应 的 错误 率 为 0.25, 那么 泛 化 误差 就 是 0.25。 但 问 
题 是 , 我 们 很 可 能 不 知道 具体 贝 叶 斯 风险 , 因为 不 知道 最 好 的 算法 , 只 有 这 3 个 算法 , 我 
们 拿 这 3 个 算法 在 全 国 湖水 水 质 上 找到 的 最 好 算法 , 如 AdaBoost, 那么 AdaBoost 对 应 
也 有 错误 率 , 如 0.2。 那 么 这 个 0.2 和 Bayes 风险 之 间 的 差别 就 是 近似 误差 ,因为 我 们 不 
知道 最 好 的 算法 是 什么 , 就 先 不 关心 这 个 近似 误差 。 而 AdaBoost 的 0.2 和 SVM 的 0.25 
之 间 的 0.05 的 差别 就 是 估算 误差 。 再 进一步 考虑 可 行 性 , 其 实 这 个 0.2 和 0.25 要 拿 全 国 
的 湖水 测试 , 这 个 可 能 也 拿 不 到 ,目前 不 是 只 拿 到 江苏 的 湖水 吗 , 如 SVM, 在 江苏 湖水 
的 错误 率 只 有 0.1, 而 AdaBoost 在 江苏 湖水 上 的 错误 率 要 稍微 差点 0.15, 这 就 是 经 验 风 
险 了 。 虽然 不 知道 SVM 和 AdaBoost 的 真实 风险 , 但 是 能 够 推算 3 个 算法 中 任意 一 个 算 
法 在 江苏 湖水 上 的 错误 率 和 全 国 湖水 上 的 错误 率 之 间 是 有 个 上 限 的 , 如 0.2 (如 SVM 的 
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真实 风险 0.25 和 经 验 风险 0.1 之 差 为 0.15, 而 AdaBoost 真实 风险 0.2 和 经 验 风险 0.15 
之 差 为 0.05)。 那 么 就 能 计算 出 估算 误差 的 上 限 为 2 倍 的 0.2, 也 就 是 0.4。 虽然 不 是 很 准 
确 , 但 毕竟 我 们 还 是 有 了 个 具体 的 范围 , 这 个 范围 有 什么 用 呢 ? 我 们 可 以 计算 到 SVM 用 
到 全 国 湖水 检验 上 去 的 效果 比 在 全 国 湖 水 上 找 的 3 个 算法 中 最 好 的 算法 (如 AdaBoost) 
的 效果 最 多 差 了 0.4。 是 不 是 很 神奇 ? 所 以 这 里 面 最 奥妙 的 是 如 何 找到 那个 上 限 。 我 们 会 
在 后 续 VC 维 里 面 介绍 这 个 奥妙 。 


3.1.3” 欠 拟 合 和 过 拟 合 


假设 有 了 对 算法 在 样本 集 和 整个 数据 集 上 效果 的 范围 (全 数据 对 应 的 真实 风险 和 样 
本 数据 对 应 的 经 验 风险 之 差 ), 我 们 是 如 何 使 用 的 呢 ? 在 这 之 前 , 先 假设 算法 在 样本 集 和 
整个 数据 集 上 效果 的 几 种 具体 情况 。 
1) 算法 在 样本 集 效果 不 好 , 在 整个 数据 集 效果 好 。 这 种 情况 不 太 可 能 存在 , 因为 数 
据 集 包括 了 样本 集 。 这 也 不 符合 实际 情况 , 实际 情况 是 第 一 步 要 找 一 个 在 样本 集 上 效果 
好 的 算法 。 
2) 算法 在 样本 集 效果 不 好 , 在 整个 数据 集 效果 也 不 好 。 这 也 是 我 们 最 不 希望 看 到 的 
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3) 算法 在 样本 集 效 果 好 , 在 整个 数据 集 效果 不 好 。 这 是 我 们 想 避 免 的 情况 。 
4) 算法 在 样本 集 效 果 好 , 在 整个 数据 集 效果 也 好 。 这 是 最 理想 的 情况 , 那么 在 样本 
集 选 到 对 应 算法 , 在 整个 数据 集 表现 也 是 好 的 。 

这 样 ， 主 要 考虑 上 面 后 三 种 情况 ， 首 先 看 第 二 种 情况 ,如 果 算 法 在 样本 和 数据 集 上 
的 效果 都 不 好 ， 那 么 会 觉得 这 个 算法 的 能 力 不 行 ， 一 般 称 为 欠 拟 合 (Underfitting)， 如 
图 3.4(a) 所 示 。 第 三 种 情况 , 如 果 算 法 在 样本 上 效果 好 , 但 是 数据 集 上 效果 不 好 , 那么 会 
觉得 这 个 算法 能 力 过 强 了 , 一般 称 为 过 拟 合 (Overfitting), 如 图 3.4(c) 所 示 。 最 好 就 是 正 
常 拟 合 , 这 就 是 第 四 种 情况 , 如 图 3.4(b) 所 示 。 

在 研究 拟 合 问 题 时 候 , 经 常会 用 到 模型 的 拟 合 能 力 , 在 思考 拟 合 能 力 的 时 候 , 又 经 常 
使 用 多 项 式 曲线 的 拟 合 能 力作 为 例子 。 举 个 多 项 式 拟 合 的 例子 ， 当 直接 拿 直线 拟 合 的 时 
候 , 会 遇 到 拟 合 的 不 好 , 用 来 预测 背后 的 线 的 趋势 也 不 好 。 当 使 用 高 阶 多 项 式 拟 合 , 增加 
阶 数 , 用 3 阶 多 项 式 曲 线 拟 合 的 时 候 , 会 发 现 拟 合 得 很 好 , 趋势 预测 也 很 好 。 但 是 如 果 继 
续 增 加 阶 数 到 6 阶 多 项 式 拟 合 的 时 候 , 会 发 现 拟 合 得 很 好 , 但 是 趋势 完全 不 对 了 。 一般 
VA, 多项式 的 阶 越 高 , 拟 合 能 力 越 高 。 这 个 的 数学 上 的 解释 就 是 著名 的 泰勒 公式 展开 多 
项 式 。 随 着 展开 的 阶 数 越 高 ,那么 越 精确 地 逼近 原 函 数 ， 所 以 能 力 越 高 。 但 是 也 会 发 现 ， 
并 非 拟 合 能 力 越 高 , 预测 效果 越 好 。 这 个 如 何 解 释 呢 ? 
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(a) (b) ©) 
34 KWE (a) EXMA (b) 和 过 拟 合 (c) 


在 思考 泛 化 误差 的 框架 下 ,以 上 定性 分 析 了 存在 拟 合 和 过 拟 合 的 问题 。 首 先 思考 如 
何 定性 地 评价 这 种 现象 呢 ? 前 面 解释 不 同 算法 的 不 同 能 力 的 时 候 谈 到 NFL 定理 , 这 里 又 
引入 一 个 算法 能 力 相 关 的 解释 ， 称 为 奥 卡 姆 剃刀 原理 (Principle of Occam’ s Razor). 3X 
个 原理 告诉 我 们 在 合理 的 解释 模型 里 面 ,最 简单 的 那个 模型 最 佳 。 用 这 个 原理 来 解释 ，3 
阶 和 6 阶 多 项 式 曲线 都 能 较 好 地 解释 当前 的 数据 分 布 了 , 但 是 3 阶 要 比 6 阶 形式 上 简单 
RE, 所 以 3 阶 要 优 于 6 阶 。 从 奥 卡 姆 剃刀 原理 来 说 , 在 选择 算法 模型 的 时 候 , 就 有 以 下 
两 种 思考 。 

(1) 增加 算法 模型 复杂 度 : 从 简单 模型 开始 尝试 , 如 果 效 果 不 好 , 就 增加 算法 模型 的 
复杂 度 , 直到 能 够 较 好 地 解释 当前 数据 , 就 停止 增加 模型 的 复杂 度 。 

(2) 限制 算法 模型 复杂 度 : 从 复杂 模型 开始 尝试 , 如 果 效 果 很 好 , 那么 开始 限制 模型 
复杂 度 , 直到 依然 能 够 较 好 地 解释 当前 数据 , 就 停止 进一步 限制 模型 的 复杂 度 。 

第 二 种 思考 比 第 一 种 思考 具有 一 定 优势 ， 即 在 第 一 次 尝试 的 时 候 , 就 能 够 明确 知道 
是 否 将 会 找到 合适 的 模型 。 第 二 种 思考 , 如 果 这 个 模型 能 够 解释 当前 数据 , 那么 接 下 来 只 
要 限制 模型 就 可 以 找到 合适 模型 。 但 是 第 一 种 思考 ， 却 不 能 有 这 个 直接 的 判断 。 所 以 第 
二 种 思考 发 展 出 来 正则 化 的 方法 , 作为 一 种 很 好 地 限制 模型 能 力 的 策略 。 

有 人 说 奥 卡 姆 剃刀 原理 和 正则 化 策略 的 定性 思考 是 挺 好 的 ， 但 是 前 面 的 拟 合 ,看 上 
去 更 像 是 回归 而 不 是 分 类 问题 。 如 果 把 这 种 多 项 式 拟 合 和 分 类 问题 对 接 起 来 ， 当 把 上 述 
对 点 的 拟 合 和 分 类 问题 联系 起 来 , 就 能 用 同样 的 思考 来 分 析 分 类 问题 了 (图 3.5)。 首 先 ， 
多 项 式 拟 合 看 上 去 是 一 个 回归 问题 。 需要 找到 合适 的 线 , 经 过 所 有 的 点 。 但 是 分 类 问题 ， 
却 不 是 要 经 过 所 有 的 点 。 用 一 个 两 类 问题 来 分 析 ， 只 考虑 两 类 的 边界 (Margin), 假如 能 
拟 合 出 合适 的 线 经 过 所 有 边界 上 的 点 , 那么 就 能 很 好 地 把 一 个 两 类 问题 转换 成 拟 合 问题 。 
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这 就 是 基于 分 类 边界 的 一 般 性 思考 。 一 旦 我 们 能 够 解决 两 类 问题 , 就 可 以 合理 地 解决 多 
类 问题 ， 即 采用 分 而 治之 的 思想 ， 先 分 出 一 个 类 别 ， 做 二 分 类 。 然 后 再 继续 分 出 一 个 类 
别 , 继续 做 二 分 类 , 直到 只 有 两 个 类 别 了 为 止 。 所 以 , 基于 分 类 边界 的 思考 具有 一 般 性 的 


图 3.5 拟 合 和 分 类 问题 


在 同一 个 模型 框架 下 , 定性 思考 的 确 很 好 , 例如 多 项 式 模型 , 通过 增加 多 项 式 的 阶 来 
增加 模型 复杂 度 。 但 是 如 何 判断 不 同 模型 框架 的 复杂 度 呢 ? 例如 广义 线性 模型 的 逻辑 回 
归 和 非 线性 的 决策 树 的 模型 复杂 度 之 间 的 比较 。 不 同 模型 框架 下 , 定性 思考 有 一 定 的 局 
限 性 , 还 需要 引入 定量 思考 。 但 是 , 如 何 定量 思考 呢 ? 一 种 办 法 就 是 基于 实际 数据 的 分 类 
结果 比较 , 例如 基于 前 面 提 到 的 江苏 的 湖水 水 质数 据 来 比较 逻辑 回归 和 决策 树 分 类 。 但 
如 果 把 所 有 数据 作为 训练 数据 , 那 就 无 法 比较 算法 的 测试 效果 了 ,因为 没有 江苏 以 外 的 
湖水 水 质数 据 了 。 这 时 需要 数据 分 组 了 ,一 组 用 来 训练 ， 另 一 组 用 来 测试 。 可 以 把 江苏 
水 质数 据 一 分 为 二 , 一 组 作为 训练 集 ， 另 一 组 作为 测试 集 。 数 据 分 组 要 注意 尽量 随机 分 ， 
和 否则 选 出 来 的 训练 分 组 就 没有 代表 性 了 。 例如 把 江苏 数据 分 为 苏 南 数据 和 苏 北 数据 两 组 ， 
哪 一 组 也 不 能 代表 江苏 数据 。 数据 分 组 为 训练 集 和 测试 集 还 不 够 , 例如 举办 个 竞赛 , 测试 
集 是 用 来 看 哪个 模型 最 终 的 效果 好 。 但 除了 训练 集 外 ,需要 一 个 验证 集 来 验证 训练 好 的 
模型 的 有 效 性 。 这 样 之 前 的 训练 集 又 分 为 训练 集 和 验证 集 。 

(1) 训练 集 (Train Set): 训练 不 同 的 算法 模型 。 

(2) 验证 集 (Validation Set): 验证 不 同 模型 , 选择 最 合适 的 模型 。 

(3) 测试 集 (Test Set): 在 验证 的 模型 上 得 到 测试 准确 度 。 

根据 竞赛 测试 结果 , 就 可 以 用 最 好 的 团队 的 算法 去 全 国 进行 湖水 水 质 检 验 了 ,进而 
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进入 实际 应 用 。 所 以 , 验证 集 是 专门 设计 用 来 选择 模型 的 。 而 这 里 面 就 包括 验证 过 拟 合 
的 情况 。 如 果 一 个 算法 在 训练 集 上 的 效果 好 ,那么 该 算法 的 拟 合 能 力 肯定 更 好 。 是 不 是 
过 拟 合 了 , 再 看 验证 集 效果 。 但 是 , 有 时 候 大 家 觉得 一 个 模型 和 另外 一 个 模型 的 结果 , 怎 
么 能 够 通过 一 次 验证 结果 来 确定 呢 ? 这 时 又 提出 了 交叉 验证 (Cross Validation) 的 思想 。 

虽然 交叉 验证 思想 解决 了 如 何 定性 考察 算法 能 力 。 但 是 这 种 定性 考察 有 个 很 大 的 局 
限 性 , 就 是 受 具 体 数据 集 的 限制 。 如 果 想 脱离 具体 数据 集 , 如 何 定性 考察 模型 的 拟 合 能 力 
呢 ? 又 回 到 分 类 边界 的 思想 , 假设 模型 能 够 找到 一 定 的 边界 的 , 那么 这 个 边界 是 否 能 够 正 
确 划 分 任意 的 数据 分 布 , 就 要 比较 找到 的 分 类 边界 对 任意 类 别 数 据 的 划分 能 力 进行 考察 
T, 具体 就 需要 引入 VC 维 (Vapnik and Chervonekis Dimension) 


3.1.4 VC 维 


VC 维 是 Facebook 人 工 智 能 实验 室 (Facebook AI Research) 的 Vapnik 提出 来 的 。VC 
维 里 面 的 V 就 是 Vapnik 的 缩写 。VC 维 伟 大 的 地 方 在 于 第 一 次 脱离 具体 样本 数据 定量 
地 描述 算法 模型 的 拟 合 能 力 。 同时, VC 维 也 是 机 器 学 习 里 面 计 算 学 习 理论 中 最 难点 的 理 
论 之 一 。 这 里 仅仅 分 析 VC 维 思 想 的 意义 ,具体 的 推导 和 证 明 可 以 参考 相关 书籍 @。 

首先 VC 维 理论 的 基石 是 Valiant 提出 的 PAC 学 习 。PAC 学 习 的 工作 使 得 Valiant 
获得 了 2010 ARX. PAC 学 习 伟大 的 地 方 在 于 给 出 了 一 个 误差 可 控 的 数学 模型 ， 在 这 
个 数学 模型 下 ， 算 法 可 以 被 描述 成 从 已 知 经 验 中 提取 假设 ， 然 后 根据 假设 对 未 知 数据 做 
出 决策 。 那么 一 个 误差 可 控 的 数学 模型 的 优点 在 哪里 呢 ? 这 个 数学 模型 可 以 很 好 地 按 概 
率 收敛 的 数学 理论 , 尤其 是 各 种 概率 不 等 式 进行 很 好 的 衔接 。 这 种 衔接 使 得 后 续 的 推理 
成 为 可 能 ， 如 VC 维和 类 似 的 Rademacher 复杂 度 理论 都 是 建立 在 PAC 学 习 的 基石 和 
各 种 概率 不 等 式 的 基础 上 的 。 这 些 概率 不 等 式 包 括 马 尔 可 夫 (Markov) FER 切 比 雪夫 
(Chebyshev) 不 等 式 、 霍 夫 丁 (Hoeffding) AA. WHA KE (Mcdiarmid) 不 等 式 和 
均衡 定理 (Symmetrization Lemma) 等 。 KW, 在 凸 优化 理论 里 面 , MAREX, Lipschitz 
连续 性 、 光 滑 性 定义 是 基础 ， 在 这 个 良好 定义 的 基础 上 就 可 以 应 用 后 续 的 Jensen 不 等 
3k. Lyapunov 函数 等 数学 工具 , 推导 出 算法 收敛 。 

PAC 学 习 的 是 一 个 概率 不 等 式 描述 下 的 误差 可 控 模 型 , 它 有 以 下 三 方面 优点 。 

(1) 通过 限制 可 控 误 差 、 比 较 概率 高 低 来 比较 算法 的 好 坏 。 要 达到 一 个 可 接受 误差 ， 
大 于 50% 的 概率 才 是 一 个 有 意义 的 算法 。 而 通过 高 低 , 就 可 以 划分 出 强 学 习 器 和 弱 学 习 
器 , 为 以 AdaBoost 算法 为 代表 的 Boosting 思想 的 讨论 打下 基石 。 


O 周志 华 . 机 器 学 习 . 北京 : 清华 大 学 出 版 社 , 2016. 
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(2) 结合 算法 计算 复杂 性 (Computational Complexity) 的 思想 ， 在 限定 多 项 式 时 间 
学 习 前 提 下 ,算法 是 否 能 够 在 可 接受 误差 下 达到 一 定 概率 , 来 讨论 算法 模型 的 可 学 习性 
(Learnable) 。 

(3) 结合 可 打 散 (Shattering) 的 目标 , 把 算法 假设 随 着 数据 量 的 增长 不 再 可 打 散 的 上 
限定 义 为 算法 复杂 度 的 度量 ， 从 而 诞生 VC 维 。 然 后 基于 算法 假设 的 结果 状态 空间 随 着 
样本 量 增加 而 增加 定义 的 增长 函数 (Growth Function) 来 推理 误差 上 限 (图 3.6)。 


3.6 ”矩形 框 模型 的 打 散 数据 量 的 讨论 


对 于 增长 函数 , 最 重要 的 是 它 考察 的 对 象 是 一 个 集合 , 当 样 本 数量 增加 , 样本 的 组 合 
任意 变化 下 会 带 来 结果 可 能 性 的 变化 。 大 家 知道 ,如果 结果 的 集合 对 应 的 可 能 性 越 多 表 
示 算 法 的 能 力 越 强 , 但 是 , 受到 算法 的 限制 , 结果 集合 组 合 的 可 能 性 不 会 随 着 样本 的 可 能 
性 增加 而 线性 地 增加 。 而 这 种 结果 集合 组 合 的 可 能 性 就 是 结果 状态 空间 (图 3.7)。 


A 


SAn) 


结果 状态 空间 


图 3.7 增长 函数 是 用 来 度量 算法 的 结果 状态 空间 数量 是 如 何 随 着 样本 量 的 增加 而 增加 的 
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VC 维 的 考察 就 是 完全 看 算法 的 结果 集合 的 状态 空间 变化 , 通过 增长 函数 的 上 限 刻 
画 为 VC 维 的 表达 式 。 这 个 过 程 有 以 下 两 个 步骤 。 

(1) VC 维 的 大 小 : 随 着 样本 数 的 增加 , 算法 存在 从 可 打 散 到 不 可 打 散 的 临界 样本 数 ， 
而 这 个 样本 数 被 定义 为 VC 维 。 因 为 样本 数量 超过 VC 维 时 就 存在 不 可 被 打 散 的 情况 ， 
也 就 是 说 结果 状态 空间 不 再 以 2^ 的 指数 增长 (假设 二 分 类 问题 , n 个 输入 样本 ) (图 3.7)。 
样本 数 超过 VC 维 之 后 的 继续 增长 , 结果 状态 数 就 会 存在 一 个 上 限 。 

(2) 泛 化 误差 的 大 小 : 误差 就 是 结果 和 算法 输出 之 间 的 差异 , 如 果 样 本 量 局 限于 VC 
维 , 算法 输出 状态 空间 能 覆盖 结果 状态 空间 。 但 如 果 存 在 超过 VC 维 的 样本 ,那么 必然 
存在 一 些 结果 状态 是 当前 算法 难以 刻画 的 情况 。 所 以 , 把 理论 上 的 泛 化 误差 和 这 种 超过 
VC 维 后 结果 状态 难以 刻画 的 情况 建立 联系 , 给 出 泛 化 误差 上 限 。 基于 VC 维 的 泛 化 误差 
完全 不 考虑 数据 的 分 布 情况 , 仅仅 考察 算法 的 能 力 带 来 的 泛 化 误差 上 限 。 

如 果 考 虑 样本 集 的 分 布 , 并 且 把 输出 结果 和 随机 结果 的 相关 性 上 限 的 期 望 作为 一 个 
复杂 度 , 那么 就 得 到 了 Rademacher 复杂 度 。 通过 类 似 的 基于 不 等 式 的 证 明 , 还 可 以 将 泛 
化 误差 建立 在 这 个 Rademacher 复杂 度 的 基础 上 。 因 为 考虑 了 数据 分 布 的 复杂 度 ， 所 以 
Rademacher 复杂 度 可 以 作为 比 增长 函数 更 为 紧 致 的 一 个 上 限 。 并 且 Rademacher 复杂 度 
和 增长 函数 之 间 存 在 恒 成 立 的 不 等 关系 ， 使 得 基于 Rademacher 复杂 度 很 容易 推理 出 基 
于 VC 维 的 泛 化 误差 。 所 以 , 这 个 过 程 有 以 下 3 个 步骤 。 

(1) Rademacher 复杂 度 : 通过 样本 和 分 布 的 划分 , 可 以 分 别 计算 经 验 Rademacher 复 
杂 度 和 Rademacher 复杂 度 (经 验 Rademacher 复杂 度 在 数据 空间 上 的 期 望 )。 

(2) 基于 Rademacher 复杂 度 的 泛 化 误差 : 误差 上 限 ， 可 以 用 Rademacher 复杂 度 
构建 表示 ， 根 据 McDiarmid 不 等 式 ，Rademacher 复杂 度 可 以 利用 经 验 Rademacher 复 
杂 度 构建 上 限 ， 这 样 误差 函数 就 可 以 基于 经 验 Rademacher 复杂 度 来 构建 上 限 ， 而 经 验 
Rademacher 复杂 度 可 以 基于 分 布 计算 的 。 所 以 直观 上 , 就 把 分 布 的 影响 表达 出 来 了 。 

(3) 基于 VC 维 的 泛 化 误差 : 利用 Rademacher 复杂 度 和 增长 函数 的 不 等 式 关系 , 可 
以 将 基于 Rademacher 复杂 度 的 泛 化 误差 估算 换算 到 基于 VC 维 的 泛 化 误差 。 

无 论 是 基于 VC 维 的 还 是 基于 Rademacher 复杂 度 的 泛 化 误差 计算 都 是 基于 集合 建 
模 的 。VC 维 利用 了 集合 的 可 扩散 性 ，Rademacher 复杂 度 利用 了 算法 输出 集合 和 随机 分 
类 结果 集合 的 相关 性 。 但 是 , 并 非 所 有 的 泛 化 误差 都 是 基于 集合 建 模 的 。 如 果 考 虑 在 线 学 
3J ( Online Learning), 那么 泛 化 误差 的 计算 就 不 是 基于 集合 的 , 而 是 要 考虑 数据 的 顺序 关 
系 。 这 时 考察 顺序 的 情况 就 是 基于 树 (Tree) 的 分 析 。 基于 集合 的 可 打 散 性 , 那么 集合 的 度 
量 是 集合 大 小 VC 维 。 而 基于 树 的 分 析 就 是 树 的 高 度 , 称 为 Littlestone 维 (Littlestone" s 
Dimension)。 如 果 不 是 从 打 散 能 力 出 发 , 依然 从 随机 集合 的 相关 性 出 发 , 这 时 要 考虑 顺序 
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Rademacher(Sequential Rademacher) 复杂 度 。 
3.2 ”经 验 风险 最 小 的 算法 


通过 前 面 的 学 习 了 解 了 经 验 风 险 最 小 的 意义 。 那么 , 如 何 通过 经 验 风 险 最 小 来 选择 
算法 呢 ? 如 果 把 带 参数 的 算法 簇 作为 候选 集 , 那么 要 求 经 验 风险 最 小 , 就 相当 于 寻找 最 优 
参数 的 算法 。 所 以 , 最 优 参 数 可 对 应 于 最 小 经 验 风险 。 经 验 风 险 (Empirical Risk, ER) 一 
般 是 由 一 组 样本 的 损失 函数 (Loss Function) 之 和 或 者 均值 来 定义 的 


ER(X, Y;0) =~) Los(z; y;6) (3.9) 
1 


这 样 根据 风险 最 小 , 可 以 计算 参数 
6" = argmin ER(X, Y;6) (3.10) 
HP X = (£1, tn)", Y = (y1,… Yn) 是 样本 集合 。 而 9 是 学 习 模型 的 参数 。 
通常 , 每 个 样本 的 损失 函数 可 以 由 两 种 定义 角度 去 定义 。 
(1) 误差 函数 (Error Function, ERF) 


Loss(zi y;; 0) = ERF(f(vi;0). y;) (3.11) 
T Dan -y? 如 果 误差 函数 是 平方 误差 
“if(zi;0) - ud 。 如 果 误 差 函数 是 绝对 值 误差 
常见 的 ERF 有 平方 误差 (Squared Error, SE) 和 绝对 值 误差 (Absolute Error, AE). 


这 样 对 应 的 经 验 风险 就 可 以 是 均 方差 (MSE) 或 均 绝对 值 差 (MAE). 
(2) 负 的 log 似 然 函 数 (Negative Log Likelihood, NLL) 


(3.12) 


Lom(2;, 9,0) — —(8;25, 4) = —ln Plas, 9,0) (3.13) 
当然 如 果 对 于 连续 情况 下 , 也 可 以 直接 利用 概率 密度 函数 来 计算 似 然 函数 。 
Tosten yi D= —£(0;24, 43) =—Inp(ai, ed) (3.14) 
那么 经 验 风 险 就 可 以 看 成 是 样本 集合 的 NLL. 
ER(X,Y;0)- is ~0(0; 23, 9,) = 过 5 —lnp(z;, y,; 0) (3.15) 
i S 
- EDI yi;0) (3.16) 


三 -=Inp(X, Y;6) (3.17) 
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这 两 种 方式 内 在 是 有 一 定 的 联系 的 。 如 果 定 义 残 差 (Residual) 为 学 习 模 型 预测 值 与 
真实 值 之 差 
r(zi, Yi;0) = f(zi;0) — vi (3.18) 
那么 , 最 小 平方 误差 等 价 于 残 差 符合 高 斯 分 布 ( 正 态 分 布 ) 下 的 最 小 NLL。 而 最 小 绝对 值 
误差 等 价 于 残 差 符合 拉 普 拉 斯 分 布下 的 最 小 NNL， 具 体 推 理 过 程 就 省 略 了 。 


r(zi,y,;0) ~ N(0,0?) = (3.19) 
arg min( f (z;; 0) )? & argmin — In == ce (3.20) 
26) 一 一 2 
8 r is Vi g rj PN 
r(zi, y;; 0) ~ Caplace(0, b) => (3.21) 
arg min| f (zi; 0) — yi| & arg min —In aoe (3.22) 


下 面 来 比较 一 下 损失 函数 是 平方 误差 和 绝对 值 误差 这 两 种 不 同情 况 。 

(1) 平方 误差 。 

QD 等 价 于 残 差 符合 高 斯 分 布 的 NLL. 

© 残 差 较 小 (< 1) 的 数据 分 配 的 权重 较 小 , 而 残 差 较 大 (> 1) 数据 分 配 权重 较 大 ， 
因此 对 残 差 较 大 项 的 有 抑制 效果 (图 3.8)。 

@ 连续 光滑 , 容易 求 梯度 (导数 ) 。 

(2) 绝对 值 误差 。 

(D 等 价 于 残 差 符合 拉 普 拉 斯 分 布 的 NLL。 

@ 对 残 差 较 小 (< 1) 和 较 大 (> 1) 的 数据 分 配 权重 平均 ， 因 此 对 不 同 的 残 差 项 同等 
看 待 (图 3.8)。 

@ 不 光滑 ， 不 容易 求 梯度 (因此 有 人 提出 了 光滑 绝对 值 误差 (Smoothed Absolute 
Error), 是 一 个 分 段 函 数 , PKA Huber 函数 )。 

上 面 简单 描述 了 经 验 风险 的 两 大 类 损失 函数 ， 即 误差 函数 和 人 负 对 数 似 然 。 并 且 解 释 
了 常见 的 两 种 误差 , 即 平方 误差 和 绝对 值 误差 , 两 种 误差 都 可 以 利用 负 对 数 似 然 来 解释 。 
不 过 , 两 种 常见 的 损失 函数 一 般 都 是 用 于 回归 分 析 。 例如 , 对 于 最 小 二 乘法 的 回归 , 就 是 
设 定 线性 的 回归 线 , 然后 基于 平方 误差 与 经 验 风险 最 小 , 就 可 以 求解 到 最 小 二 乘法 的 值 。 
如 果 用 向 量 表示 , 假设 线性 回归 线 为 f(X; B) = XB. 那么 经 验 风险 就 是 。 


ER(X, Y;8) = (f(X;8) - Y) (f(X:8) - Y) (3.23) 
= (X8- Y)'(X8- Y) (3.24) 
-Y'Y-o28'X'Y 48'X'XB (3.25) 
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| MSE vs MAE ， 


一 MSE 
— MAE 


Residual 


图 3.8 ”比较 平方 误差 和 绝对 值 误差 


根据 最 小 经 验 风险 , 对 参数 BAF 


SERKA 2xTY +2xT x8-0 (3.26) 
那么 , 求解 结果 就 是 最 小 二 乘法 的 矩阵 表示 
B* = argmin BR(X, Y;g)-(X'X)'x'Y—-A*Y (3.27) 
3.3 ”分 类 边界 


分 类 是 一 种 特殊 的 回归 , 因此 常用 的 损失 函数 不 太一 样 , 一 般 分 类 中 都 是 基于 基本 的 
两 类 问题 , 那么 结果 y, € {0,1}, 但 是 0/1 的 标签 对 称 性 不 好 , 所 以 也 常 利 用 y; € {1,1}。 
那么 这 两 种 分 类 标签 会 带 来 什么 不 同 呢 ? 我 们 基于 逻辑 回归 分 类 算法 来 解读 一 下 。 


3.3.1 ”分 类 算法 的 损失 函数 


例如 ,逻辑 回归 分 类 算法 , 一般 如 何 计算 损失 呢 ? 假设 一 个 两 类 问题 y; € {0,1}, 最 
直接 的 方法 就 是 数 一 下 样本 分 错 的 数目 , 即 0-1 指示 函数 (Indicator Function). 


Err = 3 Y(yi # f (wi;0)) (3.28) 
1 


在 最 初 介绍 逻辑 回归 中 , 对 应 的 目标 的 y; 取 值 是 0 或 1, 这 样 在 把 损失 函数 定义 为 负 的 
对 数 似 然 (NLL) 时 形式 可 以 很 简洁 。 如 果 分 类 问题 y; 取 值 换 成 是 —1 或 1 这 样 一 个 对 
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称 的 形式 , 其 实 更 具有 优势 。 这 样 定义 之 后 , vi 与 f(zil6) 同 号 即 表示 样本 分 类 分 对 了 ， 
定义 
Iyi = f(x:;0)) & yi* f(50) = 1 & —yi* f(250) = —1 (3.29) 
Iyi A f(2/,0)) & yi * f(z50) = -1 & -yi* f(250) =1 (3.30) 
这 样 损失 函数 便 可 以 写成 单位 阶 跃 函数 (Heaviside Step Function) 的 形式 
0; m0 
Loss = H(—y; * f(xi;0)) 4> H(z) = (3.31) 
p rz0 


一 般 地 , 分 类 问题 的 损失 函数 通常 表示 为 y; * f(zi;9) 形式 的 函数 。 


0 ast 
Loss(f (ai; 0), yi) = é(yif (wis 0)) = (x) = | = I(x <0) (3.32) 


L a0 


在 前 面 章节 中 逻辑 回归 中 的 损失 函数 以 负 的 对 数 似 然 来 定义 ， 如 果 把 yi 的 取 值 由 
(0,1) 变 成 了 {-1,1}， 损 失 函 数 需要 相应 地 发 生变 化 (依然 以 负 的 对 数 似 然 的 方式 来 定 
义 )。 对 于 样本 (zi, yi), Logistic 函数 同样 可 以 理解 为 yi = 1 时 的 概率 

1 


P(z;) = Tee 3.33 
此 时 , 逐步 代入 具体 Logistic RAR, 那么 损失 函数 为 
— ln P(x), yi-1 
Loss(z;, yi, 0) = (e) i 3.34 
-hi-P(z) w--1 
1 

= Tz yi-1 

= l4e-89'm 

- 1 3.35 
-nl We 
ln1 二 er-9 = yi-1 

= ore 3.36 
E Eme > yu--1 
Inl+e~ = yi-1 

=) te 3.37 
naa i=- 
mite? =, y=1 - 
Ine ':41, yy =-1 
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Inl+e9™, y=1 

- : (3.39) 

Inl+e® i, yj--1 
=In1+e-Y(0 2) (3.40) 

则 经 验 风 险 为 

1c T 
ER(X,Y;0)- 2 V Inl c e (6 22 .41 
R(X, Y 6) 2 +e (3.41) 


再 来 对 比 一 下 逻辑 回归 的 两 种 损失 函数 形式 ,虽然 都 是 对 数 似 然 函数 (NLL)。 
第 一 种 ，Logistic 函数 输出 值 可 以 解读 成 概率 值 P(zi0) = — s ， 而 目标 标签 
MEE y, € {0,1}。 那 么 对 于 概率 表示 的 似 然 度 (Likelihood) 有 


P(z;0), zm 
Bühl e À (3.42) 
1— P(xi;0), yi=0 


这 时 为 了 表示 为 统一 的 表达 式 , 利用 了 0/1 指数 的 良好 性 质 有 
L(0;2,y;) = P(z50) (1 — P(z; 0) (3.43) 


第 二 种 , 目标 是 对 称 的 y; € (71,1). 那么 


1 
P(zi;0)- ——g Yi=!1 
L(0; zi, yi) = | Lieren (3.44) 


1- P(2;0) = a) 9ic-l 


这 时 , 利用 -1/1 的 良好 对 称 性 


1 
1+ e-wiezi 


所 以 , 大 家 要 注意 的 是 逻辑 回归 采用 不 同 的 目标 数字 化 标签 , 对 数 的 似 然 度 是 不 一 样 的 ， 
那么 对 应 的 损失 是 负 的 对 数 似 然 度 也 不 一 样 。 如 果 采 用 y; € {0,1}, 那么 损失 为 


L(0; zi, yi) = (3.45) 


Loss(z;, yi;0) = —ln{ P(xi; 0)” (1 — P(zi;0)) *:) (3.46) 
=- [vin or) vom {a - ae HI (3.47) 
= yln(1-- e79*:) + (1 — y;)ln{1 + ef=} (3.48) 


但 如 果 采 用 y; e {1,1}, 那么 损失 为 


Loss(z;, y;;0) = —In { (3.49) 


1 
1+ 7 482% 
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—dn(14 e757:) 
对 应 的 表达 式 y; € (71,1) 要 明显 简单 。 
3.3.2 ”分 类 算法 的 边界 


(3.50) 


如 果 把 f(z;) = 9zi 看 成 样本 空间 上 的 一 条 直线 。 BA, ;0z; = y;f(zi) 被 称 为 
边界 (Margin). FXE, y;f(zi)( 其 中 y; € {一 1,1}) 这 个 定义 来 自 支持 向 量 机 。 对 于 一 
个 二 分 类 问题 ， 在 线性 可 分 的 情况 下 (图 3.9), 分 属于 两 个 类 别 的 数据 (m, y; = 1) 和 


(zj,yj = 一 1),， 有 如 下 关系 成 立 


T 
f(zi)=0 Titb>1, y -l 
» e yf(x) 21 
f(z;)=0 zj+b<-1, yj--l 
Classification Margin 
6 T T T T T 
5L á i Positive Class:y—1 
A 
Oa+b=1 
4 上 A 4 
EI 
$ 
$3r | 
a 
x 
2 上 E 
1 上 4 
Negative Class:y=—1 
0 1 1 " " " 
0.0 0.5 1.0 1.5 2.0 2.5 3.0 


z 


图 3.9 分 类 界限 
这 样 就 把 分 类 边界 (Classification Margin) 定义 如 下 


CM(z,y;0) = yf(z;0) 


(3.51) 


(3.52) 


从 图 3.9 可 以 看 出 ,两 条 边界 (支持 向 量 所 在 直线 ) 之 间 f(x) 值 相差 了 2。 而 2 = 
2yf(z), 所 以 有 些 教材 也 把 分 类 界限 定义 成 2yf(z)。 边 界 的 含义 也 比较 清楚 ,就 是 f(zi) 
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是 样本 空间 上 的 一 个 划分 面 , 如 果 正 确 分 类 , 根据 目标 标签 y; € (71,1) 的 对 称 性 , 那么 
WA f(x) 与 y; 的 符号 相 


同 。 当 错误 分 类 时 , f(zi) 与 y; 的 符号 相 异 。 那 么 , y;f(zi) < 0 
就 是 错误 分 类 的 情况 , 需要 计算 损失 。 最 简单 的 是 0-1 计数 损失 。 


0, i i 0 
L(yif (23) = | ae 


1, yif(ri)«0 
但 是 逻辑 


(3.53) 
回归 的 计算 表达 式 是 In{1 +e-Yf(*)}。 在 SVM P, 对 应 的 损失 称 为 链 损 
失 (Hinge Loss), 对 应 的 表达 式 为 max(0, 1 一 y;f (zi)) (参考 图 3.10)。 更 进一步 , 有 时 边界 


对 应 的 不 是 一 条 直线 , 而 是 组 合 线 , 如 AdaBoost 对 应 的 损失 函数 是 指数 函数 o7 vH G0, 
其 中 H(zi) = sign(aihi(z) + agho(a) + ashs(z))。 


c 
损失 函数 H(x) 是 一 个 线性 组 合 (参考 图 3.10)。 


e o e e 9 ©: 

e 9*9 o ° ojo “Se = °.: 

EE o | e 9:9 一 
LA] o9 o 9: © 
hy(z) ha( x) h(z) 


H(z) 
图 3.10 AdaBoost 对 应 的 组 合 边 界 H (x) = sign(aihi(x) + azho(x) 十 asha(z)) 


SVM 的 损失 函数 , 以 CM 来 写 的 话 是 匀 链 损失 函数 


Loss(z, y|8) = max (0,1 — yf (x|0)) & (x) = max(0,1 — x) 


(3.54) 
为 了 让 这 些 不 同 的 损失 函数 在 CM = 0 时 有 相同 的 取 值 , 对 于 Logistic Loss 通常 做 
一 个 归 一 化 处 理 


d(x) = 高 mt te?) 


(3.55) 
于 是 可 以 把 Logistic Loss 和 Hinge Loss 可 以 看 成 是 0-1 Loss 的 一 个 上 限 (参见 


图 3.11), 而 0-1 Loss 的 另外 一 个 常用 的 上 限 是 指数 损失 (Exponential Loss) 
I(x <0) <e * & ¢(z) =e * 


(3.56) 
而 这 个 对 数 损失 对 应 的 就 是 AdaBoost 算法 的 损失 函数 (参见 图 3.12)。 这 个 上 限 在 
AdaBoost 误差 收敛 性 证 明 中 也 会 用 到 。 
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P AdaBoost 
LR 

- 0 1 2 

SVM hinge loss yf (a) 

——— 


图 3.11 AdaBooost 的 指数 损失 、0-1 计数 损失 、LR 的 log 损失 和 SVM 的 hinge 损失 


5 T r T 


Tr T 
— 0-1 
4 — hinge 
— logistic 
3k 
2r 
1 
yf (a) 
— 
0 " == = 
-3 -2 =l 0 1 2 3 4 


图 3.12 0-1 计数 损失 、LR 的 log 损失 和 SVM 的 hinge 损失 


损失 函数 对 应 的 算法 如 表 3.1 所 示 。 


表 3.1 ”损失 函数 
损失 函数 函数 形式 对 应 算法 
0-1 损失 (Zero-One Loss) I(x <0) Linear Binary Classification 
StH (Hinge Loss) (x) = max(0,1 — x) SVM 


逻辑 损失 (Logistic Loss) 


指数 损失 (Exponential Loss) d(z) = 


1 
dz) = [EU In(14-e77]) 


Logistic Regression 


e7? 


AdaBoost 


表 31 总 结 了 这 四 种 损失 函数 对 应 的 函数 形式 及 对 应 的 算法 。 基 于 经 验 风险 最 小 


和 对 应 的 损失 函数 ,那么 得 到 对 应 的 逻辑 回 


JH. 支持 向 量 机 和 AdaBoost 算法 的 表达 式 
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如 下 。 


WLR = se [190 + exp(—y;(w! zi ZI (3.57) 


i=l 
Wsvm = argmin E >》 max{0, 1- yi(w'z +b))} + wu) (3.58) 
w |n 


i=1 


n T 
A eo . 
@AdaBoost = arg min D» ， A(x) =sign SJ wdu(m) (3.59) 


shi 
ws t=1 


其 中 支持 向 量 机 部 分 的 形式 有 点 不 一 样 , Je BEI T ww 是 正则 化 项 , 将 在 下 


一 章 深入 解释 。 


3.4 h 


通过 泛 化 误差 理论 引述 了 经 验 风险 最 小 的 意义 ,然后 通过 经 验 风 险 最 小 ,描述 了 通 


用 的 损失 函数 的 形式 , 并 区 分 了 回归 和 分 类 问题 的 损失 函数 。 强 调 了 在 定义 分 类 问题 的 
损失 函数 时 目标 编码 的 意义 。 最 后 通过 两 类 问题 的 编码 ， 引 出 分 类 边界 的 思想 和 基于 分 
类 边界 的 常用 算法 及 对 应 的 损失 函数 。 
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hapter 4 Ly 
结构 风险 最 修 


经 验 风险 没有 考虑 模型 学 习 能 力 和 数据 的 匹配 度 。 在 讨论 泛 化 误差 时 ， 若 模型 学 习 
能 力 过 强 , 则 很 容易 造成 过 拟 合 。 除了 换 一 种 学 习 能 力 弱 的 学 习 模 型 , 另 一 种 方法 是 添加 
正则 化 (Regularization)。 在 经 验 风险 最 小 的 同时 , 兼顾 平衡 模型 的 学 习 能 力 与 数据 的 匹 
AC, 避免 出 现 过 拟 合 的 新 目标 , 就 是 结构 风险 最 小 (Structural Risk Minimization)。 结 构 
风险 最 小 也 是 由 Vapnik 提出 的 , 他 基于 VC 维 来 分 析 了 算法 的 学 习 能 力 , 推理 了 泛 化 误 
差 , 然后 提出 了 结构 风险 最 小 的 思想 。 


4.1 ”经验 风 险 最 小 和 过 拟 合 


大 家 知道 , 经 验 风 险 就 是 对 训练 误差 的 一 个 估算 , 但 是 训练 的 学 习 模型 最 后 要 用 来 
做 预测 , 所 以 更 加 关注 测试 误差 。 一 般 把 训练 学 习 模型 的 过 程 称 为 拟 合 , 拟 合 过 程 中 , 根 
据 经 验 风险 来 训练 模型 , 但 最 终 目标 是 泛 化 误差 最 小 。 在 具体 问题 中 , 经 验 风险 对 应 训练 
RE, 而 泛 化 误差 对 应 测试 误差 。 通常 在 拟 合 完成 之 后 会 遇 到 下 面 两 种 情况 。 

(1) 训练 误差 大 , 且 测 试 误差 大 , 那么 可 能 是 欠 拟 合 。 

(D 一 般 学 习 模 型 不 够 复杂 。 

@ VC 定理 就 是 用 来 度量 学 习 模型 的 拟 合 能 力 的 一 种 尺度 。 

(2) 训练 误差 小 , 但 测试 误差 大 , 那么 可 能 是 发 生 了 过 拟 合 。 

QD 选用 的 学 习 模型 过 于 复杂 。 

Q) 使 用 交叉 验证 来 进行 确认 是 否 过 拟 合 。 

问题 是 选 定 了 某 个 学 习 能 力 强 的 算法 模型 之 后 ,如何 防止 过 拟 合 的 发 生 呢 ? 我 们 必 
须 限制 算法 模型 的 复杂 度 (K 4.1)。 如 图 4.1 所 示 , 随 着 所 选择 模型 的 复杂 度 (si) 的 增加 ， 
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开始 有 助 于 降低 经 验 风险 , 但 是 随 着 复杂 度 继续 增加 , 对 应 的 泛 化 误差 并 没有 相应 下 降 ， 
反而 可 能 增 大 。 所 以 最 佳 模型 是 对 经 验 风险 和 泛 化 误差 的 整体 最 佳 。 


表 4.1 防止 过 拟 合 
方法 依据 
选择 适合 拟 合 能 力 的 学 习 模型 学 习 模型 的 VC HE 
选择 合适 参数 、 结构 正则 化 
评估 是 否 过 拟 合 交叉 验证 


风险 上 限 


y 置信 区 间 


hy hy hs h 


图 4.1 结构 风险 最 小 


当 使 用 了 强大 的 模型 ， 只 能 通过 限制 模型 复杂 度 来 进行 选择 , 这 就 是 结构 风险 最 小 
(Structural Risk Minimization, SRM) 的 目标 , 而 这 种 模型 复杂 性 的 限制 , 一 般 描述 为 正 
则 化 ,用 来 约束 模型 参数 范围 。 下 面 进一步 通过 逻辑 回归 的 过 拟 合 来 说 明 经 验 风险 最 小 
的 不 足 。 

先 探 讨 一 下 逻辑 回归 的 过 拟 合 情况 处 理 。 逻辑 回归 很 容易 导致 过 拟 合 ,尤其 在 样本 
数据 比较 稀疏 或 属性 维度 特别 大 的 情况 下 。 避 免 过 拟 合 一 般 有 以 下 三 类 方法 。 

(1) 增加 样本 数量 和 压缩 特征 属性 数量 : 当 特 征 属性 很 多 且 特 种 数目 相对 于 训练 样 
本 较 大 时 ,训练 数据 变 得 极为 稀疏 ， 此 时 逻辑 回归 训练 结果 不 稳定 ， 且 很 容易 陷入 过 拟 
合 。 可 以 考虑 合理 地 增加 样本 数量 , 以 及 进行 特征 选择 (Feature Selection, FS) 和 特征 抽 
取 (Feature Extraction, FE)。 

(D 特征 选择 : 常用 过 滤 (Filter) 方法 、 根 据 相 关 度 (Correlation)、 互 信息 (Mutual 
Information) 等 ; ET LAF FH 8.3 (Wrapper) 方法 ,暴力 筛选 特征 ; LAA HK (Embeded) 
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方法 ,根据 其 他 对 数据 稀 朴 或 者 高 维特 征 属性 空间 不 敏感 的 算法 模型 (SVM, KNN 等 ) 
进行 特征 选择 。 

© 特征 提取 : 常用 投影 的 方法 、 对 于 没有 目标 属性 情况 下 的 主 成 分 分 析 (Principle 
Component Analysis，PCA)、 自 组 织 神经 网 络 (Self-Organizing Mapping, SOM) 可 用 于 
无 监督 特征 提取 。 在 使 用 目标 属性 (Supervised) 参考 的 情况 下 ， 线 性 判别 分 析 (Linear 
Discriminant Analysis, LDA) 或 者 投影 寻 踪 (Projection Pursuit, PP) 可 用 于 监督 特征 
提取 。 

(2) 提前 退出 训练 (Early Stopping): 在 发 现 测试 误差 有 增 大 趋势 时 , 停止 训练 , 但 是 
这 种 方法 并 不 能 保证 一 定 改善 。 

(3) 结构 风险 最 小 和 正则 化 (Ly 或 者 Le): 


i< T 
* A = em 一 Mi mi p 
0 arg min SR(X, Y |0) iui X uci + Alles (4.1) 
NE E e 
6 cQ X ee s "AMA (4.2) 


如 果 样本 和 特征 固定 , 则 选择 的 算法 模型 、 逻 辑 回 归 也 固定 , 那么 对 于 过 拟 合 的 处 理 只 能 
依赖 正则 化 。 尤 其 上 面 的 提前 退出 , 说 明 在 过 拟 合 的 风险 情况 下 , 继续 追求 经 验 风险 最 小 
的 求解 变 得 意义 不 大 。 接 下 来 详细 解释 结构 风险 最 小 和 正则 化 。 


4.2 ”结构 风险 最 小 和 正则 化 


在 拟 合 的 过 程 中 有 两 个 方面 需要 考虑 : 经 验 风险 最 小 和 正则 化 。 把 经 验 风险 最 小 和 
正则 化 联合 起 来 的 训练 方法 就 是 结构 风险 最 小 。 因 此 结构 风险 的 定义 为 
SR(X, Y;0) = ER(X, Y;0) + A - Reguralization(0) (4.3) 
而 结构 风险 最 小 就 是 
0° = argmin SR(X, Y;0) = argmin(ER(X, Y;6) +-Reguralization(@)) — (4.4) 


其 中 入 是 正则 化 系数 。 如 果 采 用 更 为 一 般 的 描述 , 把 不 同 参数 的 函数 看 成 正则 化 对 象 , 那 
AXET— RR f EF A 


PE argmin SR(X,Y; f) = arg min(ER(X, Y; f) +A- Reguralization( f)) (4.5) 
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这 样 正则 化 就 可 以 包含 一 些 非 参数 (Non-parametric) 模型 ， 如 决策 树 的 剪 枝 (Prun- 
ing) 等 。 
那么 , 如 何 确定 正则 化 限制 形式 , 以 及 如 何 确定 正则 化 比例 系数 和 呢 ? 下 面 从 最 常见 
的 正则 化 项 入 手 进行 说 明 。 最 常见 的 正则 化 项 是 L, 正则 化 项 , CE Lp 空间 的 模 (Norm), 
假设 m = (z1, 22, ,zn), MA 


1 
all, = (il? + aval? Ims P) . (4.6) 


在 通常 情况 下 , 不 是 直接 用 L = [el Bt. 而 是 用 Le = ||6llp, B 


lel 
Reguralization(8) = |||? = V lêr» (4.7) 


4.2 给 出 不 同 p 值 的 Lp 模 为 1 的 图 形 。 这 个 图 形 描述 了 对 参数 分 布 的 限制 区 域 。 


itiitiiftt i 


p-235 一 2-05 p-25 = p=2'5 p= = 
E 25 =0.354 ?385 æ 707 d =1.414 E =2.828 


Qd 4.2. 不同 p 取 值 的 Lp BUS 1 的 图 形 


通过 定义 的 结果 风险 最 小 的 形式 , 给 出 了 最 常见 的 正则 化 项 , 再 进一步 解释 如 何 使 
用 正规 化 项 之 前 , 先 深入 介绍 结构 风险 最 小 (SRM). 


4.2.1 ”从 空间 角度 理解 SRM 


在 经 验 风险 最 小 理论 基础 上 加 入 了 正则 化 思想 并 最 终 提出 了 结构 风险 最 小 理论 。 下 
而 将 在 此 基础 上 进行 数学 推导 , 深入 理解 结构 风险 最 小 , 特别 是 正则 化 项 的 意义 。 注 意 
ERM 中 的 损失 函数 有 两 种 定义 方式 一 一 误差 函数 和 负 的 对 数 似 然 。 下 面 所 出 现 的 损失 
函数 是 以 误差 函数 来 定义 的 。 

首先 从 拉 格 朗 日 乘 子 法 出 发 来 获取 结构 风险 最 小 的 形式 


min f(x) 
e min max £(v, A) = min max f(x) TA: g(x) (4.8) 
g(x) <0 


根据 KKT 条 件 之 一 , A.g(z) =0, 4A AO, A g(x) = 0。 设 
v= arg max £r, à) £0 (4.9) 


即 可 获取 结构 风险 最 小 的 近似 形式 , BR 
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ua a min f(z) + X*g(z) (4.10) 
g(x) <0 


如 果 把 c 蔡 换 成 参数 0, 然后 令 其 中 的 (0) 和 g(9) THA ERM(X,Y;6) 和 
RL,(0) - C. H d* #0, BẸ 


f(0) = ERM(X, Y;6) (4.11) 
(6) = Rz, (6) - C 
则 有 
argmin SRM(X, Y 6) & argmin (ERM(X, Y 0) + A'(Rz, (8) — C) (4.12) 
" ming ERM(X, Y ;0) (4.13) 
Ry, (0) «C 


由 式 (4.13) TA, 正则 化 相当 于 存在 某 个 常数 C, 24 g(0) = RL,(9) - C = 0 时 , tt 
i Zz0H 
X = argmax (ERM(X, Y 6) + (Rz, (0) — C)) (4.14) 


直观 来 说 , 正则 化 项 的 数学 意义 就 是 限制 了 RL,(9) = C. 而 这 个 C 是 由 正则 化 系数 
入 来 决定 的 。 因此 SRM 的 意义 就 是 , 在 满足 正则 化 项 对 参数 9 的 限制 条 件 时 , RAR 
风险 ERM(X, Y;0) 最 小 的 模型 f(9)。 

如 果 用 图 形 来 描述 ， 根 据 拉 格 朗 日 示意 图 (图 4.3), 在 g(z,y) = c 的 限制 条 件 下 ， 
K f(z,y) 的 最 值 ， 拉 格 朗 日 乘 数 法 就 是 找到 以 f(z,y) = d, 定义 的 等 高 线 上 ， 找 到 与 
glx, y) = c 相 切 的 点 。 


pies pee. fay) -di 
> 


x 


4.3” 拉 格 朗 日 图 示 求 最 值 ,f(z,y) = d 的 等 高 线 与 g(z,y) = c 相 切 
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类 比 到 结构 风险 最 小 , 就 是 在 n, (0) = C 的 线 上 求 与 ERM(X, Y;0)= d, 的 等 高 
线 相 切 的 点 (图 4.4)。 只 是 这 里 的 C 是 通过 正则 化 系数 和 间接 进行 确定 的 。 


围绕 最 小 点 的 
RSS 轮 廓 


Ridge 
Fegression 


正则 化 项 
限制 区 域 


LASSO RIDGE REGRESSION 


H 


图 44 比较 Li 和 Le 正则 化 


4.2.2 ”从 贝 叶 斯 观点 理解 SRM 


前 面 把 结构 风险 最 小 中 的 损失 函数 以 误差 函数 来 定义 ， 并 依据 拉 格 朗 日 乘 子 法 进行 
形式 化 解 ， 从 空间 的 角度 对 结构 风险 最 小 进行 了 一 个 直观 理解 。 现 在 以 负 的 对 数 似 然 来 
看 待 损失 函数 , 再 从 贝 叶 斯 概率 分 布 的 观点 给 出 结构 风险 最 小 的 另 一 个 直观 解释 。 

根据 第 3 章 对 损失 函数 的 两 种 方式 的 定义 , 我 们 知道 损失 函数 同时 可 以 定义 为 负 的 
对 数 似 然 


SRM(X, Y;0) = ERM(X, Y;0) + ARz, (0) (4.15) 
= -1 np(X, Y;0) + AR (0) (4.16) 


n 
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-Lmp(X, Y;0)4 (imeem) (4.17) 

= 1 Inp(X, Y; 8-790) (4.18) 
其 中 0e < e0 = 1, 进行 一 个 替换 , > 

prior(8) = e-"ARza(9) e [0,1] (4.19) 


则 prior(6) 看 成 是 参数 6 的 先 验 概率 (Prior Probability), 那么 经 验 风险 最 小 理解 为 极 大 
似 然 估 计 


argmin ERM(X, Y;0) argmaxp(X, Y; 0) & OMLE(X,Y;0) (4.20) 


加 上 正则 化 转换 后 的 先 验 概率 , 结构 风险 最 小 就 理解 为 最 大 后 验 概率 (Maximum A Pos- 
teriori Probability, MAP) 


argmin SRM(X, Y;0) = arg max p(X, Y;0)e- "^ Rz, (9) (4.21) 
= arg max p(X, Y ;O)prior(0) (4.22) 
<> OMAP(X,Y;0) (4.23) 


所 以 从 负 的 对 数 似 然 出 发 理解 损失 函数 ,再 用 贝 叶 斯 观点 来 看 待 ， 正则 化 就 是 给 模 
型 的 参数 加 了 个 先 验 分 布 的 限制 条 件 


n RLON P 
prior(@) = (28.0) = (==) (4.24) 


相当 于 每 个 样本 对 应 一 个 co) 的 先 验 概率 。 

这 样 分 别 从 两 种 理解 损失 函数 的 角度 出 发 ， 再 分 别 通 过 拉 格 朗 日 乘 子 法 和 贝 叶 斯 后 
验 概率 的 转换 角度 ， 对 结构 风险 最 小 中 的 正则 化 进行 了 解读 。 两 种 解读 的 结论 类 似 : 一 
个 是 从 参数 空间 上 对 参数 进行 限制 ; 另 一 个 是 从 参数 分 布 上 对 参数 进行 限制 。 


4.3 ”回归 的 正则 化 


主流 回归 模型 包括 线性 回归 、 多 项 式 回归 (Polynomial Regression)、 岭 回归 (Ridge Re- 
gression)、Lasso 回归 (Lasso Regression). ElasticNet 回归 (ElasticNet Regression), LARS 
(Least Angle Regression)。 其 他 模型 回归 包括 RANSAC 回归 (RANdom SAmple Consensus 
Regression), SVR(Support Vector Regression), Boosting 回归 树 、 随 机 森林 回归 等 。 其 中 
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带 正则 化 回归 主要 有 3 个 , AREH, Lasso 回归 和 ElasticNet 回归 。 除 此 之 外 , 其 中 
SVR 也 可 以 理解 成 带 正则 化 的 回归 。 但 是 支持 向 量 机 、Boosting 和 随机 森林 是 分 类 算法 ， 
因此 更 多 地 用 在 分 类 问题 中 。 

岭 回归 、Lasso 回归 和 ElasticNet 回归 分 别 对 应 Lo EME, Lı 正则 化 , 以 及 Lı 和 
La 加 权 的 正则 化 。 在 有 了 结构 风险 最 小 的 空间 和 贝 叶 斯 两 种 解释 的 基础 上 , 以 下 更 深入 
地 介绍 两 种 最 常用 的 正则 化 方法 一 一 Li 正则 化 和 Lo 正则 化 。 


4.3.1 L 正则 化 和 上 岭 回 归 


首先 从 空间 的 角度 来 分 别 讨论 Lo 正则 化 。 同样 地 , 在 空间 解释 中 ERM 部 分 的 损失 
函数 为 误差 函数 ， 即 


Rrs(0) = ||8\|3 = lel? = 0? + 65 +-+- + Om (4.25) 


假设 是 二 维 问题 , 在 参数 B = (1,2) 的 情况 下 , Lo 正则 化 相当 于 把 参数 9 的 取 值 
范围 限定 在 了 以 原点 为 圆心 半径 为 C 的 圆 中 (图 4.4), Bp 


RL(8)-0t-8-CeDb-8-C20 (4.26) 


假设 ERM 的 损失 函数 是 MSE, 那么 ERM(X , Y; 8) 在 线性 回归 YY = 8' X 前 提 下 
也 是 二 次 曲线 。 这 种 情况 称 为 岭 回归 (Ridge Regression). 


ERM(X, Y, f) = D» ac y? (4.27) 
iS 

SRM(X,¥, 8) =- Le -zi — yi)? + ll (4.28) 

B=(X'X+AIN1XTY (4.29) 


岭 回归 有 以 下 三 方面 优点 。 
(1) 根据 结果 公式 , 很 明显 的 一 个 好 处 是 有 共 线性 (Multicollinearity) 时 , XTX 虽然 
是 半 正 定 的 但 却 是 奇异 的 (Singular)。 而 在 加 上 M 之 后 , 结果 变 得 可 以 求 逆 了 。 

(2) 根据 图 4.4, 岭 回归 会 把 8 限制 在 一 定 的 范围 内 , 使 得 对 B 的 估计 从 最 佳 线性 无 
偏 估计 (Best Linear Unbiased Estimate, BLUE) 变 成 了 最 小 方差 估计 (Minimum Variance 
Unbiased Estimator, MVUE)。 从 BLUE 到 MVUE 体现 了 参数 估计 中 以 牺牲 偏差 (Bias) 
来 换取 更 小 方差 (Variance) 的 偏差 方差 权衡 (Bias Variance Tradeoff) 的 思想 。 为 什么 更 
小 的 方差 有 好 处 呢 ? 方差 越 小 模型 对 数据 较 小 的 扰动 更 稳定 。 否 则 , 若 数据 引入 很 小 的 突 


变 点 (Outlier), 则 学 习 的 模型 会 迅速 退化 , 与 原 模型 差异 较 大 , 这 不 是 我 们 想 要 的 结果 。 
但 是 如 果 偏 差 较 大 ， 使 得 模型 在 较 小 的 方差 情况 下 难以 覆盖 未 训练 数据 ， 则 导致 泛 化 误 
差 变 大 , 有 点 类 似 欠 拟 合 。 正 则 化 系数 和 RK, 会 导致 方差 越 小 , 偏差 越 大 。 如 何 找到 合 
适 的 达到 偏差 和 方差 平衡 ,目前 还 没有 特别 好 的 办 法 。 
E[u- f)?] 2 Efy? +P- 2yf] 

= E[y?] + E[f?] — Ey] 

= Var[y] + Ely]? + Var[f] + E(f]? — 2f EI] 

= Varly] + Var[f] + (f — E[f])? 

= Var[y] + Var[f] + Elf — ff? 


= c? + Var[f] + Bias[f]? (4.30) 


其 中 


F=z.8 
(3) Lo 正则 化 还 有 一 个 好 处 就 是 正则 项 是 二 次 的 , 因此 连续 且 二 次 可 导 , 和 MSE 同 
次 同 构 , 所 以 不 会 增加 计算 的 复杂 度 。 求解 原 问 题 可 以 使 用 的 最 优化 方法 (可 以 是 要 求 二 
次 可 导 的 牛顿 法 ), 正则 化 后 依然 可 以 继续 使 用 。 
4.3.2 Lı 正则 化 和 Lasso 回归 
接 下 来 是 L 正则 化 
Rr, (9) = 16 = [01| + 02] +--+ |@m| (4.31) 
当 损 失 函 数 是 MSE, 而 正则 化 是 Li 模 时 , 这 时 称 为 Lasso 回归 (Least Absolute Shrinkage 
and Selection Operator Regression，Lasso) 最 小 绝对 值 缩 选 算 符 。 


同样 假设 是 二 维 问题 , 在 参数 B = (b,b) 的 情况 下 , 正则 化 曲线 为 第 一 象限 直线 ， 
其 他 象限 轴 对 称 , 合 起 来 是 一 个 正方 形 (图 4.4) 


Ri.(B)=|B|+|B2|=CS 人 Ta Jaen e (4.32) 
轴 对 称 图 形 ， 除了 第 一 象限 
Lasso 回归 有 以 下 3 个 特点 。 
(1) Lasso 最 大 的 特征 就 是 ,由 于 Re (6) = C 是 方 体 , 因此 在 各 个 轴 上 的 点 比较 突 
出 , 于 是 ERM(X, Y; p) 很 容易 与 顶点 相 切 。 于 是 使 得 这 些 轴 上 的 B 被 优先 选中 。 而 这 
些 轴 上 的 点 具有 的 特征 在 其 他 方向 上 是 0。 对 于 立体 的 情况 ,两 个 轴 上 连 线 的 顶点 也 由 
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于 突出 容易 被 切 到 。 这 样 使 得 存在 一 个 优先 级 的 被 切 到 : 从 各 个 轴 的 顶点 ， 较 少 的 轴 的 
连 线 , 然后 再 到 更 多 轴 的 连接 面 。 在 这 样 的 优先 性 选择 下 使 得 大 部 分 轴 为 0。 也 就 是 说 m 
个 特征 向 量 中 尽 可 能 多 的 维度 变 成 了 0, 因此 在 对 稀疏 性 有 要 求 的 情况 下 特别 适用 。 

(2) Lasso 的 这 种 内 在 稀疏 性 ,成 为 特征 选择 的 主要 方法 之 一 。 在 监督 学 习 的 特种 选 
择 (Feature Selection) 中 , 相对 于 过 滤 (Filter)、 a% (Wrapper)®, FAR (Embeded) 
方法 的 正则 化 (主要 是 Lasso) 集中 了 Filter 在 计算 性 方面 的 优势 , 同时 又 有 Wrapper 在 
自动 化 方面 的 优势 。 

(3) 由 于 Lasso 是 绝对 值 函数 , 因此 不 能 二 次 求 导 (牛顿 法 和 共 斩 梯度 法 (Conjugate 
Gradient) 需要 二 次 求 导 )， 这 样 在 最 优化 方法 的 选择 上 就 有 了 限制 ， 需 要 利用 坐标 下 坡 
(Corrdinate Descent) 或 者 近 端 梯度 法 (Proximal Gradient) 进行 求解 。 

从 贝 叶 斯 角度 来 看 , 9 的 先 验 分 布 e->Rzn(e) 在 Lo 和 Li 的 情况 下 分 别 对 应 了 高 斯 
分 布 和 拉 普 拉 斯 分 布 。 


1 

-Alella ~ ms 
e SO~N (o 4) (4.33) 
exlel 心 9 Laplace (o. i) (4.34) 


从 图 4.5 可 以 看 到 相 比 较 高 斯 分 布 , 拉 普 拉 斯 分 布 更 加 尖锐 一 些 。 


Laplace vs Gaussian 


—Laplace(0,1)| 
— Normal(0,1) 


0.5 


0.4 


图 4.5 拉 普 拉 斯 分 布 与 高 斯 分 布 


4.3.3 Li. L 组 合 正则 化 和 ElasticNet 回归 
HEA Lo 和 Li 分 别 具 有 不 同 的 优势 ,那么 把 两 者 结合 起 来 是 不 是 会 更 好 呢 ? 这 就 


(D Wrapper 翻译 成 包裹 , 参见 : 周志 华 . 机 器 学 习 . 北京 : 清华 大 学 出 版 社 , 2016. 
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是 ElasticNet 的 想法 。 从 图 4.6 KE, 它 既 有 比较 突出 的 顶点 在 坐标 轴 上 , 又 接近 圆 形 限 
制 。 这样 对 共 线性 和 稀疏 化 都 有 很 大 帮助 。 虽 然 ElasticNet 的 效果 与 Lasso 非常 相似 , 但 
是 Lasso 对 共 线性 是 比较 敏感 的 , 会 随机 选择 其 中 一 个 特征 并 把 其 他 特征 的 系数 置 0。 而 
ElasticNet 则 会 在 两 者 之 间 选 择 一 个 平衡 的 点 进行 加 权 。 


ARgx (0) = aA, Ry, (0) + (1 — o)A2 Rz,(0) 今 (4.35) 
Rex (6) = 0% || + (1 — o) lll (4.36) 
=À (alol «a - stets) (4.37) 

=À (aot «a - stel) (438) 

=aleh + (1-2) lela (4.39) 


-~ Ridge 
--- Lasso 
— Elastic Net 


图 4.6 Elastic Net 回归 的 限制 域 处 于 Ridge 和 Lasso 之 间 


"4o — LIN Rew(g) ~ Ra, (0) 而 当 a=0 时 Rex (8) ~ 了 Ris(0), 所 以 a RAW La 
比率 。 

但 是 , 目前 还 有 很 明显 的 问题 没有 解决 : 和 如 何 选择 ? ElasticNet 中 的 Li 比率 a 如 
何 选 择 ? 

当 没 有 好 办 法 时 , 只 能 做 Try-and-Fail。 这 时 需要 利用 交叉 验证 来 通过 测试 误差 判断 
正则 化 系数 的 好 坏 。 而 对 一 组 和 一 组 a 进行 交叉 验证 比较 , 然后 选择 最 优 的 入 和 a 的 
技术 称 为 网 格 搜索 (Grid Search)。 它 是 暴力 查找 优化 参数 的 办 法 。 另 外 的 办 法 就 随机 搜 
索 (Random Search). 
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4.4 ”分 类 的 正则 化 


主流 的 分 类 算法 包括 广义 线性 模型 的 逻辑 回归 、 超 面 分 割 的 支持 向 量 机 和 线性 判别 
分 析 (Linear Discriminant Analysis)、 决 策 树 的 CART、 集 成 学 习 的 AdaBoost 和 随机 森 
林 、 贝 叶 斯 学 习 的 Naive Bayes, 还 有 神经 网 络 。 其 中 主流 的 带 正 则 化 的 分 类 包括 支持 向 
HHL, Boosting 算法 的 XGBoost, 以 及 深度 神经 网 络 。 在 前 面 讲解 的 逻辑 回归 、 支持 向 量 
机 和 AdaBoost 对 应 的 目标 函数 分 别 如 下 


fle 
wir = arg min L loh + exp(—yi(w a; + on} (4.40 
disvM = arg min LS max{0 1—yi(w'a;+b))}+Aw'w (4.41 
M w nz ) Vi i 5 
i= 


n T 
g fa 
@adaboost = arg min. L Tetun} ,H(z) = siga J wih(z:) (442 


t=1 


其 中 , 支持 向 量 机 的 二 次 项 ww, 理解 为 正则 化 项 。 把 逻辑 回归 也 引入 了 L 正则 
化 , 可 以 看 到 这 两 种 方法 的 相似 性 


1 
LR, = argmin f Sna + exp(—yi(w' a; + b))} + wtu} (4.43) 


i=1 


44.1 ”支持 向 量 机 和 L 正则 化 


在 介绍 基于 分 类 界面 的 经 验 风 险 最 小 时 , 所 讲解 的 分 类 界面 就 是 起 源 于 对 支持 向 量 机 
的 再 认识 。 我 们 知道 , 支持 向 量 机 最 早 的 目标 是 要 求 固 定 支持 向 量 的 直线 w "z+b= 圭 1， 
要 求 边界 之 间 的 距离 最 小 , 如 图 4.7 所 示 。 


2 | 
asv = argmax (727 } = aremin {Zw v) (4.44) 


在 考虑 异常 值 (Outlier) 情况 下 ,引入 € 软 边界 (Soft Margin), 重新 要 求 


> " : 1 
Üsvw = arg min {exe + pre] (4.45) 


YL 


st. y(w zi +b) 21—-&;6 20 (4.46) 


{2|(wa)+b=+1} 


{2|(wa)-+b=—1} 
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Note: 


(wa,)+b=+1 
(wa,)-+b=—1 


=> (w(zÍ-2))-2 


= w E27 
=> (Gey) “Feat 
图 4.7 支持 向 量 机 的 边界 (Margin) 
如 果 把 软 边界 稍微 整理 一 下 , 则 有 
A — as(ap r: 
eed EQ Loos max(0,1 — y(w x; -- b) (4.47) 
& 20 
& 最 小 就 取 值 max(0,1 — yi(w" a; +b)}, 得 到 
WsvM = arg min {eS mato 1— y(w' e; +b))}+ Pee] (448) 
i=l 


替换 A= xU 可 以 得 到 前 面 对 应 的 支持 向 量 机 的 目标 表达 式 。 所以, 最 早 的 边界 最 
大 的 目标 , 在 以 Hinge 函数 为 损失 函数 的 结构 风险 最 小 的 表达 式 中 解释 成 了 Lo 正则 化 ， 
反而 是 软 边 界 对 异常 值 兼容 考量 成 了 支持 向 量 机 的 目标 损失 Hinge 函数 了 。 所 以 , EX 
持 向 量 机 里 面 , 目标 和 正则 化 的 理解 ,不 仅 莫 定 了 分 类 边界 的 思想 ,也 莫 定 了 结构 风险 
最 小 中 正则 化 理解 的 基本 思想 。 根 据 结构 风险 最 小 ,最 小 化 的 目标 分 成 了 损失 函数 和 正 
则 化 项 了 ,而 两 者 之 间 是 通过 比例 系数 X 来 控制 的 。 以 更 为 泛 化 的 眼光 来 看 ， 哪 一 项 是 
损失 函数 、 哪 一 项 是 正则 化 也 并 不 需要 那么 明确 。 至 于 这 个 正则 化 系数 A 如 何 确认 ， 除 
了 前 面谈 到 的 试 错 法 和 网 格 搜索 外 , 在 支持 向 量 机 中 还 有 进一步 的 扩展 , 就 是 v-SVM 和 


C-SVM 的 差异 。 
1 w' 


kec-ilgu-U iE VL, argu 
p p p p 


V,svM = argmin l > & 十 EXP. (4.49) 
wea P 2p? 
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st.yi PE 十 =) 21- ££ >0;p>0 4.50) 

稍微 整理 一 下 , 同时 把 p 看 成 一 个 需要 优化 的 变量 , 在 拉 格 朗 日 目标 公式 中 引入 p 

和 系数 ve PERESA C 时 做 了 个 o FH, 并 且 把 替换 后 的 p 看 成 是 变量 , 同时 设 
E p 的 参数 v。 这 就 是 本 质 上 SVM 和 C-SVM 的 差异 。 


n 
> = . (ade TL iR 
ics cep [Y &t gw w'—vp 4.51) 


i=l 


st. yi(w a; +b!) > p- E&E >0;p >0 4.52) 


PA8[ACT. v 系数 后 , 我 们 发 现 v 本 质 上 是 调节 在 p 的 泛 化 边界 里 面 的 样本 个 数 占 所 有 样 
本 个 数 的 比例 : 


;. Dui " 
v x Hi wil Seth) <a 


这 样 , TE C-SVM 里 面 对 松弛 变量 Li 正则 化 如 何 设置 C(A) 也 是 一 个 很 不 确定 的 问 
fl. v-SVM 通过 对 C 在 最 大 Margin 中 意义 的 探讨 , 用 一 个 ve [0,1] 来 替代 了 C, 这 样 
需要 根据 支持 向 量 的 个 数 来 设置 C 的 大 小 , 变 成 了 根据 支持 向 量 数 量 的 占 比 v 来 设置 。 
但 是 v 本 身 也 没有 好 的 最 优化 设置 。 

4.4.2 XGBoost 和 树 正则 化 

除了 Ly 和 Lo 正则 化 , 还 有 其 他 广泛 应 用 在 分 类 问题 里 面 的 正则 化 , 其 中 使 用 最 广 
泛 的 就 是 树 的 正则 化 。 例 如 ,XGBoost 算法 ， 其 渊源 就 是 GradientBoost 加 上 树 的 正则 
化 和 并 行 加 速 。 而 GradientBoost 的 思想 又 来 源 于 AdaBoost. AdaBoost, 顾名思义 ， 是 
Adaptive Boost, 所 以 既 包 括 Boost 思想 的 部 分 , 也 包括 Adaptive 迭代 更 新 。 

(1) Boost 思想 : Boost 就 是 加 权 多 个 弱 学 习 器 h(a) 可 以 生成 一 个 强 学 习 器 H(z) = 
sign X edi) 要 求 每 个 学 习 器 至 少 是 弱 学 习 器 , 即 错误 率 要 求 小 于 50%, 所 以 可 通过 
计算 错误 率 判 断 是 否 是 弱 学 习 器 。 错 误 率 的 计算 比较 简单 ， 就 是 计算 错误 的 样本 出 现 的 
概率 之 和 , 对 应 离散 情况 下 的 概率 权重 和 连续 情况 的 分 布 , BH 


3 "OPE 
MIS um 


Penpi(n(e)en) ”连续 情况 
(2) Adaptive 迭代 更 新 思想 : 每 个 弱 学 习 器 都 会 有 个 加 权 权重 , 即 


4.53) 


1，1 一 6 
= = In 一 -一 4.55 
a = 5 in— (4.55) 
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这 个 加 权 权 重 , 还 可 以 用 来 更 新 样本 的 概率 分 布 , 其 中 Z 是 归 一 化 因子 , 即 


w; ,e at Yihe(zs) 
vie = H Z (4.56) 
t 


前 面 解释 了 目标 函数 是 指数 损失 , 即 
n T 
Ü AdaBoost = arg min Xeon ,H(zi) = sign 7 ahi(zi) (4.57) 
men i=l t=1 
这 就 是 Gradient Boost 思想 的 起 源 ， 也 是 经 验 风 险 最 小 的 应 用 。 在 k= t 时 , 对 某 个 样本 
zi 的 估算 为 yit = Hoi) = È oxhy(z;). RA k=t+1 时 , 估算 变 为 
t 十 1 


yi bc 17 Hua(zi) = SO axhe(wi)He(ai) = Hz) + arih (zi) 4.58 
k=1 


我 们 探讨 这 个 过 程 中 如 何 确定 ons 的 值 , 根据 经 验 风险 最 小 有 


ER(X, Y; 0141) = Veces deals (80) 4.59 
i=1 
n 

= Y jer n a fea D 4.60 
i=l 


根据 最 小 值 情况 下 偏 导数 为 0 来 进行 求解 ， 即 
OER(X, Y; a1) 


0= 4.61 
Dary 
n 
= 2 —yihuii(2;))e^ (Hi(zi)g- viaa (2i) 4.62 
= > e Vie (ti) eat 一 D e Vie (@i) gorda 4.63 
Wiht+1 二 一 1 Yiht+ı=1 
= 》 emeden YO em(ed)eem 4.64 
人 天 je+1 Yi=het1 
于 是 可 以 计算 
Y ev) 
a pie __ (4.65) 
tl = (YS ewe) eH) 5 
人 天 ht+1 
Soe wile) y eniz) 


= gh LLL ae (4.66) 


> evi He (za) 


yizhea 
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" Lin 1-«& 
€t 
其 中 
e-viHi(ni) 
- i 4. 
hei 


根据 最 优化 求解 出 来 的 ， 就 是 Adaptive 迭代 更 新 的 权重 求解 ，AdaBoost 就 是 目标 损失 
函数 为 指数 函数 的 梯度 下 降 。GradientBoost 进一步 泛 化 了 这 个 过 程 ， 从 tt 到 t+1 步 
GradientBoost 做 了 3 个 泛 化 。 

(1) 权重 参数 泛 化 成 分 类 器 : 不 再 求解 w+1， 而 认为 求 新 的 fi41(zi) = arriheri(zi) 
直接 作为 目标 ,这样 对 于 一 些 无 参数 分 类 器 就 可 以 适用 了 , 如 决策 树 。 

(2) 重复 使 用 上 次 预测 结果 计算 : 不 再 直接 利用 H(z;), 而 是 直接 用 dia = Hi(zi)， 
这 样 Hia (zi) = fie + fea): 

(3) 损失 函数 一 般 化 : 不 再 特 指 指数 损失 evle) tohle), Tf o E NUR 
失 , 即 


fiy = argmin ER(X, Y; fess) = argmin J Loss(yi, fie + feya (2:)) (4.68) 


这 样 损失 函数 就 可 以 随意 选择 了 ,如 均 方 误差 。 
所 以 在 GradientBoost 泛 化 之 后 , 可 以 基于 结构 风险 最 小 的 思想 , 引入 正则 化 Q( fey), 
即 


fin = argmin SR(X, Y; fi+1) (4.69) 


= argmin > ， Loss(yi, $i; + fe+i1(@i)) + 2(fe41) (4.70) 


ici 

对 应 的 树 的 模型 的 正则 化 如 何 设 定 呢 ? 我 们 可 以 分 析 树 的 复杂 度 ， 一 般 来 说 树 的 高 
度 或 叶子 的 节点 数 就 是 一 个 很 好 的 指标 。 在 XGBoost 里 面 采 用 了 如 下 的 树 正 则 化 : 

Nicat 
2(ft41) = Meat + P 2 uw? (4.71) 

上 面 这 个 表达 式 中 ，Nieat 非常 容易 理解 , 但 是 后 面 每 个 叶子 节点 的 数值 w? 主要 有 
以 下 两 个 方面 的 理解 。 

(1) w; 是 回归 树 的 数值 : 分 类 树 和 回归 树 不 太一 样 ， 回 归 树 的 每 个 叶子 节点 是 对 应 
一 个 数值 的 。 
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(2) w; 的 平方 是 有 意义 的 : 这 个 与 Boosting 方法 的 思想 有 关系 。 在 Boosting ER 
Tir. Ho(vi) 在 某 种 意义 上 已 经 是 主干 了 ,其 余 可 以 作为 偏差 (Bias)， 对 于 偏差 的 情况 ， 
肯定 希望 偏差 的 平方 和 越 小 越 好 , 类 似 偏差 的 方差 , 和 Lo 正则 化 的 思想 不 约 而 同 。 


T T NA. 
Variance of Bias (x D ES > At p u$ r, (4.72) 


1-2 t=2 j=l 


当然 在 正则 化 树 的 基础 上 , XGBoost 还 有 很 多 并 行 优化 的 实现 。 
4.4.3 ”神经 网 络 和 DropOut 正则 化 


在 介绍 了 参数 的 正则 化 、 树 的 正则 化 之 后 , 还 想 提 一 下 网 络 的 正则 化 。 树 的 结构 的 
复杂 度 之 一 可 以 用 高 度 来 表示 , 那么 网 络 的 结构 复杂 度 如 何 表示 呢 ? 一 般 来 说 , 在 训练 模 
型 的 时 候 , 网络 的 点 和 边 数 是 网 络 复杂 度 的 重要 参数 。 当 然 网 络 的 层 数 和 宽度 也 可 以 看 
成 是 复杂 度 的 一 种 , 但 是 这 个 参数 的 影响 很 大 。 所 以 , 更 细 粒 度 的 节点 数 和 边 数 就 是 重要 
的 网 络 复杂 度 参 数 。 

因此 ， 预 设 了 一 个 复杂 的 网 络 之 后 ， 正 则 化 的 目标 之 一 就 是 简化 网 络 ， 可 以 采用 
DropOut 正则 化 。 

(1) 节点 的 DropOut: 在 训练 的 时 候 , 可 以 设置 DropOnut 的 比例 , 然后 神经 网 络 会 随 
机 地 让 某 些 节点 的 所 有 连接 都 不 参与 训练 。 这 个 过 程 中 , 每 次 会 有 不 同 部 分 的 网 络 进行 
学 习 。 最 后 测试 时 ,所 有 的 节点 参与 预测 ， 类 似 集成 学 习 的 过 程 (图 4.8)。 


图 4.8 网 络 DropOut 节点 


(2) 边 的 DropConnect: 对 于 节点 的 DropOnt 的 颗粒 度 依 然 太 大 , 因为 某 个 节点 被 忽 
略 ， 那 么 所 有 连接 的 边 都 会 被 忽略 。 所 以 可 以 为 每 条 边 设置 一 个 概率 值 。 这 样 可 以 更 为 
精细 地 控制 网 络 复杂 度 (图 4.9)。 
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49 网 络 DropConnect 边 


4.4.4 正则 化 的 优 缺 点 


前 面谈 到 了 大 量 正则 化 带 来 的 好 处 , 包括 让 算法 模型 尽快 收敛 稳定 、 作 为 特征 选择 
的 手段 、 更 好 的 防止 过 拟 合 等 。 但 是 , 某 些 正则 化 也 会 带 来 计算 复杂 性 。 以 经 典 的 回归 正 
则 化 中 的 Lo 和 Ly 正则 化 举例 , 在 最 优化 求解 方面 , Lo 具有 多 次 可 导 的 特性 , 可 以 使 用 
衍生 的 共 轿 梯度 (Preconditioned Conjugate Gradient, PCG) 和 衍生 的 牛顿 算法 (Limited 
Memory BFGS, L-BFGS)。 而 Li 由 于 二 次 不 可 导 ， 就 没有 那么 简单 了 ,通常 要 使 用 一 
些 近似 的 替代 算法 (Surrogate) 来 逼近 不 可 导 的 部 分 , 如 Coordinate Descent 的 CDN 算 
¥%, quasi-Newton 的 OWL-QN 算法 和 Proximal Gradient 的 COGD 算法 (参考 表 4.2). 


表 4.2 La ALi 的 优化 方法 


算法 类 别 适合 L2 e L 
递 度 下 降 Adam Adam 
坐标 下 降 Cyclic Coordinate Descent (CDN) 
共 轿 递 度 Preconditioned CG 
拟 牛 顿 L-BFGS Orthant-Wise Limited-memory Quasi-Newton (OWL-QN) 
近 端 递 度 Composite Objective GD (COGD) 


更 为 细致 的 优化 求解 , 将 会 在 后 续 章节 深入 介绍 。 


对 Li 和 Lo 训练 曲线 进行 比较 , 在 相同 的 参数 设置 情况 下 , 训练 相同 步 数 , L 能 较 
快 获得 较 低 的 错误 率 (参考 图 4.10)。 
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学 习 曲 线 学 习 曲 线 
Fe Training score 40 
[-4— Cross-validation score 

[-4— Testing-validation score 


He Training score 
-+ Cross-validation score. 
+= Testing-validation score] 


20 
UC EEREEURTTIIIITHMM 20 RN 
0 10 20 30 40 50 0 10 20 30 40 50 
和 迭代 次 数 Iterations 迭代 次 数 Iterations 
(a) 训练 曲线 (b) Lz 训练 曲线 


图 4.10 Li Al Lo 训练 曲线 比较 


4.5 ”小 结 


本 章 在 经 验 风险 最 小 的 基础 上 介绍 了 过 拟 合 的 可 能 性 。 如何 更 好 地 处 理 过 拟 合 问题 ， 
结构 风险 最 小 给 出 了 比较 好 的 回答 。 正 则 化 是 结构 风险 最 小 中 主要 的 限制 模型 复杂 度 的 
思路 。 我 们 讨论 了 常见 的 Li 和 Lo 回归 正则 化 , 并 且 深入 理解 了 它们 背后 的 解释 。 然 后 
针对 主流 的 分 类 算法 , 我 们 讨论 了 支持 向 量 机 里 暗含 的 正则 化 、 决 策 树 的 正则 化 和 神经 


网 络 的 正则 化 。 最 后 在 讨论 正则 化 缺点 的 同时 , 引出 最 优化 求解 的 方法 , 这 会 在 后 续 章节 
深入 介绍 。 
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前 面 章 节 提 到 了 最 小 二 乘法 、 广 义 线性 模型 、 最 大 似 然 估计 、 指 数 分 布 簇 及 其 中 的 
累计 量 生 成 函数 等 概念 , 但 是 没有 详细 地 解释 这 些 概念 背后 的 关系 。 本 章 首先 介绍 常见 
的 参数 估计 的 方法 ， 以 及 它们 背后 的 联系 ， 然 后 在 此 基础 上 深入 介绍 统计 尤其 是 贝 叶 斯 
统计 , 在 贝 叶 斯 统计 的 基础 上 深入 分 析 炉 的 作用 , 并 将 前 面 这 些 概念 串 起 来 。 


5.1 统计 学 习 的 基础 : 参数 估计 


参数 估计 是 统计 学 习 的 基础 之 一 ， 最 早 的 参数 估计 是 高 斯 提出 的 最 小 二 乘法 , 之 后 
英国 的 统计 学 开创 者 皮尔 逊 提出 了 和 矩 估计 (Moment Method Estimation)， 皮 尔 逊 的 继任 
者 费 希 尔 提 出 了 最 大 似 然 估计 , 之 后 这 三 大 参数 估计 成 为 了 统计 学 习 的 基础 。 在 讲解 贝 
叶 斯 统计 之 前 , 先 了 解 一 下 这 三 大 参数 估计 的 思想 和 关系 。 


5.1.1 $Bf&it 


和 矩 估 计 的 思想 就 是 通过 理论 计算 的 带 参数 的 矩 和 样本 矩 之 间 的 对 应 关系 建立 方程 组 ， 
WRA k 个 参数 ， 就 列 出 前 1 到 阶 矩 估计 的 等 式 , 来 求解 这 个 参数 。 
假设 有 91,02,… ,9 个 变量 , 根据 对 应 的 分 布 fx(z; 9) 就 能 求解 对 应 的 矩 : 


m = Ex] - | zf(2;0) de = g1 (01, 0a: 0) (6.1) 
n = EIX?) =| 22 f(e;0) de = (0s. 02) (5.2) 
(5.3) 


ix = E[X*] = | a? f(z; 6) dz = ge(01,02,: ,0h) (5.4) 


2] £st nasa 09 
再 根据 对 应 的 样本 zi, zz … ,zn 计算 样本 矩 , 与 前 面 的 矩 一 一 对 应 起 来 ,就 能 建立 
个 方程 求解 k 个 参数 。 


m 
fy = Lh mons 9x) (5.5) 
i=1 
a bi 
fia = "PE = g2(01,05, - -- , Ox) (5.6) 
i=1 
(5.7) 
~ le 
Pr = = Dat = gelr, 02, 9x) (5.8) 
i=l 


矩 估 计 简 单 好 用 ,但 是 有 一 个 缺点 ， 即 求 出 来 的 参数 很 可 能 不 符合 参数 的 应 有 的 范 
H, 也 就 是 说 没有 考虑 是 否 为 充分 统计 量 (Sufficient Statistic)。 举 个 简单 的 例子 , 假设 有 
一 个 均匀 分 布 u[0,0]. 如 果 有 4 个 样本 3、5、6、18, 那么 要 估算 0, 根据 矩 估计 得 到 一 阶 
期 望 


E[X] = — ia irj =8 (5.9) 


0 —16 (5.10) 
很 明显 3. 5. 6. 18 属于 U[0, 16], 不 符合 参数 范围 的 要 求 9 > max{3, 5, 6, 18}. 
5.1.2 ”最 大 似 然 估计 


最 大 似 然 估计 是 费 希 尔 认识 到 了 矩 估计 的 不 足 之 后 定义 并 证 明 的 。 可 以 从 矩 估 计 来 
证 明 最 大 似 然 估 计 。 
假设 已 知 分 布 fx(z; 9), 那么 一 阶 矩 估计 为 


E[X|- | zf(z;0) dz = D»: (5.11) 
如 果 引入 站 = h(X) 进行 替换 , 那么 
E[Y] = L h(X) f (x; 8) d. =F Me) (5.12) 
将 其 具体 化 , 得 


A(X) = E 3g mfx (6) (5.13) 


LMETTIMETITITITTITARM 


得 到 
ie lee 

È fx(n;6) 

= 08 . 

-J. [5m LE 
0 

= | agit 

0 
= gg], ens 
7 96 =0 
于 是 得 到 


a0 = Jo > In fx(zi;0 | 


= X LE -0 


5.14) 


5.17 


5.18 


5.19 


5.20 


这 样 再 根据 似 然 函 数 4(9) 导数 为 零 对 应 到 求 最 值 , 可 以 证 明 最 大 似 然 估 计 。 但 是 这 
种 证 明 有 个 局 限 性 , 要 求 分 布 函数 可 导 。 更 为 一 般 的 证 明 , 在 后 续 可 以 从 最 大 焙 的 角度 给 


出 。 


极 大 似 然 估计 拥有 充分 统计 的 好 处 ， 如 对 于 前 面 均匀 分 布 00,0] 的 例子 。 


分 布 函数 为 
J 
f(e,0)= H E 
那么 根据 最 大 似 然 估计 , 有 


L(X;0) = J] f(a.) 


zx max{z1, 72,..* ,Tn} <0 
0, ”其 他 


又 因为 去 是 单调 递减 的 ， 所 以 


0* = arg max L(0; X) = max(zi1,22,::: , £n} = max{3, 5,6,18} = 18 


(5.21) 


(5.22) 


(5.23) 


(5.24) 


II s$ tutt a 
所 以 , 这 就 是 最 大 似 然 估 计 被 广泛 应 用 的 原因 。 
5.1.3 ”最 小 二 乘法 


最 小 二 乘法 是 高 斯 发 现 的 , 也 是 三 大 估计 中 最 早 被 发 现 的 , 可 以 看 成 最 大 似 然 估 计 在 


正 态 分 布下 的 一 个 推论 。 假设 有 m1 22, ,zn 对 应 y1,y2，,… Yn» 要 估计 最 佳 参数 (a, 8) 
使 得 y =a + Bz。 并 且 对 应 的 残 差 m = yi — (a + Boj) 满足 正 态 分 布 N(0,o), WA 
iov f(r g?)- e x i 
f(rlo)= m 5.25) 
根据 最 大 似 然 估 计 , 有 
Ka, 8) = In L(a, 6; R) = vas — om 5.26) 
TUO" 
E b» -3 1 In(2no?) 一 Y zi 5.27) 
i=0 i=0 
由 此 通过 最 大 似 然 估计 得 到 最 小 二 乘法 的 表达 式 为 
a*,g* = arg max £(a, B) (5.28) 
= argmin > r? = argmin Do - (a+ Bai)? (5.29) 


其 实 高 斯 发 现 最 小 二 乘法 要 早 于 正 态 分 布 , 他 是 根据 当时 天 文学 上 一 条 经 验 法 则 测 
量 多 次 ， 用 均值 来 表示 最 后 的 测量 值 的 经 验 。 假 设 有 一 组 测量 值 ,to,… ,tn， 那 么 均 
值 为 


i= I5 ti (5.30) 
i=0 
假设 该 均值 是 求 某 种 目标 函数 f(z) 的 最 优 值 , 则 最 优 值 点 的 导数 为 零 , 即 
f'(t)-0 (5.31) 
进一步 假设 采用 最 简单 的 线性 函数 为 
iv NE. 
f'(z) 2 g(z) x-t—c 22^ (5.32) 


= lY = 而 (5.33) 
i=0 
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那么 根据 导数 方程 , 可 以 得 到 


fle) = 3- Ye - uy (5.34) 


i=0 


这 样 就 有 了 均 方 差 最 小 的 优化 目标 函数 。 对 于 tr, to, stn 求解 一 个 目标 变量 乡 = a, 得 


* 1S 2 
o neming 2 a) =t (5.35) 


对 于 6,0, ,tn， 如 果 增 加 自由 度 , 两 个 目标 变量 = a + pt, 那么 
o*,8* = arg mip > Do - (a + Bt)? (5.36) 


所 以 , 发 明 最 小 二 乘法 是 高 斯 基于 经 验 的 泛 化 , 在 发 现 正 态 分 布 之 后 , 它 的 合理 性 又 
可 以 通过 最 大 似 然 估 计 来 阐述 。 

在 对 三 大 参数 估计 方法 比较 后 ， 我 们 还 需要 对 概率 分 布 进行 一 些 探讨 。 例 如 ， 对 于 
指数 分 布 通 来 说 ， 最 大 似 然 估计 和 一 阶 矩 估计 是 一 致 的 ， 因 为 指数 分 布 复 的 导数 是 存在 
的 。 而 前 面 举 的 例子 是 均匀 分 布 , 它 的 导数 是 不 存在 的 , 这 时 最 大 似 然 估计 的 效果 就 凸 
显 了 。 


5.2 ”概率 分 布 与 三 大 统计 思维 


概率 分 布 中 最 经 典 的 就 是 正 态 分 布 , 根据 大 数 定理 , 很 多 分 布 都 与 正 态 分 布 有 联系 。 
在 统计 学 习 上 有 3 种 经 典 的 思维 , 分 别 是 频率 派 (Frequentist)、 经 验 派 (也 称 费 希 尔 派 
(Fisherian)) 和 贝 叶 斯 派 (Bayesian)。 本 节 从 每 个 派别 如 何 看 待 正 态 分 布 的 角度 来 讨论 它 
们 之 间 的 差别 。 


5.2.1 ”频率 派 和 正 态 分 布 


除了 高 斯 以 外 , 有 一 种 说 法 说 正 态 分 布 最 早 是 由 法 国 数学 家 棣 莫 弗 (de Moivre) 发 现 
的 , 为 此 法 国 和 德国 为 正 态 分 布 的 命名 争论 很 久 , 最 后 才 将 其 命名 为 正 态 分 布 , 但 是 由 于 
高 斯 名 气 太 大 , 因此 也 通常 称 为 高 斯 分 布 。 

棣 莫 弗 发 现 高 斯 分 布 的 过 程 可 称 为 频率 派 的 经 典 ， 频 率 派 通过 频率 的 极限 来 发 现 
并 计算 分 布 。 例 如 ， 二 项 分 布 就 是 伯 努 利 分 布 的 者 加 ， 如 果 肥 加 到 一 定 极限 就 是 正 态 
分 布 


n 
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Priim p) = PX =K) = (P) a-o = kp 630) 

*4 n — oo 时 ,根据 斯 特 林 (Stirling) 公式 有 如 下 逼近 
n! = n"e7" /2nn l +0 (2)] 5.38) 

如 果 通过 代入 斯 竺 林 公 式 重新 认识 二 项 分 布 , 则 有 

108) = ppt- 5.39) 
-0 (2) "asm "a 
-Wa ley {= yl 542) 
= h(k) 9 5.43) 


43548 u = np, FH o = J/np(1— p). k- uz » PA 


np(n—np) _ u(n — p) 
n n 


o? = np(1- p) = 5.44 


把 f(k) 中 的 h(k) 进行 替换 ,得 


HG) = hn +2) = MB = [rM d 
rum zc 5.46 
2np(n — p) ( " z) ( = =) 5.47 
1 
qx (1+2) (- 2) 5.48 
z - 5.49 


yen (92) 6-79 (52) 


把 f(k) 中 的 t(k) 进行 替换 , 得 
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ra CE CES] 


=k (P) + (n-i (20-2) 


= (p+ z)ln (; 


2) +(n-u- a)n (E) 


=-(u+a)n(1+2) (n-p »n(i- 


根据 m(1 +2) = 2 — 52? + O(za)， 3n ool, /= mp LII 20, 并 且 


T(x) =—(u+2) TM 


nA LS T, 
, D H kg u) 
ME MC anny 
aont) *° (aaa) 
--£ «o() +0 (ms) 


再 来 看 n 一 co 时 , j= np oo. mA t>o, #o— 044 
有 n-p 


F(z) = f(u 2) = f(k) 


N l e -车 +0 
1 1 
2rco2|11+O| 一 1-0 
m n-pu 
1 2? 
X —— Ee a6 
Vanoi 


我 们 可 以 看 到 ， 基 于 斯 特 林 公式 ， 将 二 项 分 布 以 u = 


np 为 中 心 ， 


4 


5.54) 


(5.63) 


ERE o = 


Vall 一 D) 的 大 小 , 随 着 n — oo. 二 项 分 布 会 收敛 到 正 态 分 布 , 如 图 5.1 所 示 。 
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0 20 40 60 80 100 120 A 0 2 4 
全 0.2 0.5 
Q 
80.1 i | alll 
& o 0 
0 20 40 60 80 100 120 i -2 0 2 4 
0.2 - 0.5 - - . 
E 
=0.1 
E 
Ao 0 
0 20 40 60 80 100 120 -4  -—2 0 2 4 


o o 

o i d 
1 e 
bo in 


Bin(200,0,4) Bin(150,0,4) 
o 
io 


0 20 40 60 80 100 120 -2 0 2 4 
0.5 
0.1 | mul 
0 0 
0 20 40 60 80 100 120 -4 -2 0 2 4 


5.1 二 项 分 布 和 正 态 分 布 


5.2.2 ”经 验 派 和 正 态 分 布 

还 有 一 种 说 法 认为 正 态 分 布 最 早 是 高 斯 发 现 的 ， 当 时 高 斯 是 基于 天 文学 数据 处 理 的 
一 条 经 验 发 现 的 ， 这 条 经 验 依然 是 均值 最 优 。 如 果 有 z1,z2,… ,zn 个 样本 ， 那 么 均值 
z= TD 假设 最 优 值 为 未 知 参数 9， 偏 差 为 ri = mi — 0， 假 设 偏差 满足 某 个 分 布 
Fr) 则 根据 最 大 似 然 估 计 , 有 


n 


40) = X In f(r) 5.64 
= 
= wo - 8) 5.65 
根据 均值 最 优 的 经 验 , 有 B 
z = 6° = argmax/(f) = argmax ^ In f(x; — 0) 5.66 
最 优 值 点 导数 为 零 , 即 ~ 
2 Maa x 一 - f 0 5.67 
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通过 这 个 等 式 关系 推导 出 函数 f(z) 的 形式 。 首 先 做 替换 来 简化 计算 , BI 


_ f(z) 
g(x) = F(a) 5.68) 


HR n= 2 时 , 对 任意 的 z1,z2, 有 


) 
o (23) + (252) -o 5.70) 
) m 


g(t) = —(-t) | a 5.72) 


可 见 g(a) 是 奇 函 数 。 当 取 n= m +1 时 , 对 任意 的 zl = zz = o = Em = t, Em4 = —mt 
成 立 , 那么 z — 0. B 


> g(zi — 2) = mg(t - 0) + (-mt - 0) = 0 5.73 
i=l 
mg(t) = —g(—mt) = g(mt) 5.74 
可 见 g(x) 还 是 线性 的 。 于 是 可 以 得 到 如 下 表达 式 : 
d —g(r)- Cz 5.75 
计算 偏 微分 方程 得 到 
f(x) = Me?” 5.76 
再 根据 分 布 的 要 求 , 有 
| f(z)dz = | Me?* dz =1 5.77 


BC--L1M- = 可 得 到 标准 正太 分布。 
通过 天 文学 的 经 验 , 测量 值 的 均值 最 优 , 那么 就 可 以 推理 到 误差 应 该 满足 正 态 分 布 
的 形式 。 相 比 频率 派 的 极限 求解 ,似乎 要 简单 些 。 当 然 这 个 过 程 使 用 了 最 大 似 然 估 计 。 


5.2.3” 贝 叶 斯 派 和 正 态 分 布 
当 我 们 希望 找到 一 个 分 布 , 限制 了 分 布 的 期 望 和 方差, 使 得 EX) = 0, 方差 E(X?) = 
c?, 并 且 满 足 最 大 粹 有 HH(f(z)) = — | f(z)In f(z)dz 的 分 布 , 即 


max- | f(2) In fdz (5.78) 
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st. f(x) 20 (5.79) 
| jie =2 (5.80) 
[aroa =0 (5.81) 
j? f(z)dz = e? (5.82) 


那么 , 根据 拉 格 朗 日 乘 子 法 求解 , 得 


£(f. 0.0. 2) == ry fts e [fta (| 2? f(w)de — o?) 


+a (- | fle)ar) +% (fras) 5.83) 
BLIS, 61,62; 1,2) wa 3:539)... (1.11 f(2)) +612 + 6:0? + (do — x) =0 5.84) 
f(z) = efit +0227—1-A +22 5.85) 
代入 第 一 个 限制 条 件 
| =< 5.86) 
gll 1 5.87) 
Jer 
再 代入 第 二 个 限制 条 件 
| eif (5.88) 
| = Jo 十 2g2zjegaz+gaz 一 1 一 Aa+Xadz (5.89) 
glz+gaz2 一 1 一 Mi 十 Xz |= = [eta = (5.90) 


如 果 左 边 存 在 , 那么 必然 02 < 0, IFA 0 = 0. 
再 代入 第 三 个 限制 条 件 


[pees = (5.91) 
2 
[ean = E = o? [etas (5.92) 


[2a -g? [nn m.s - j| (5.93) 
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可 以 推导 出 92 = -去 . 


由 此 , 可 以 推导 出 


[27a = -0° | 209320 da (5.94) 
一 2b2o2 = 1 (5.95) 
eel = = (5.96) 
[eFax 
2 m 2 
| 六 = feae fe dy 
= | Jer" an 
2r poo _,2 
= | | e207 rdrdé 
o Jo 
2x "M 
= | af e207 rdr 
0 0 
= [2x (CE lo ) 
= Vang? (5.97) 
2 1 2 
f(z) = e 26? = 一 -一 ez (5.98) 
[esac V2no? 


我 们 发 现 这 刚好 就 是 正 态 分 布 W(0,a2?)。 从 上 面 过 程 ， 可 以 看 到 满足 期 望 和 方差 限 


制 的 最 大 焙 分 布 刚好 就 是 


E 态 分 布 。 甚 至 , 对 均值 和 方差 的 限制 变 成 不 等 式 时 依然 成 立 ， 


即 


max- | riz) f(a)de (5.99) 
st. f(x) 20 (5.100) 

| /的 是 = (5.101) 

IE f(z)dz < n (5.102) 
Je f(z)dz < o? (5.103) 


SAVES ANU RV ARR RE ACRSISE, 我 们 发 现 所 要 求 的 数据 量 最 小 。 
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5.2.4 MIRER RA 


KETTLE SURE RET. 即 在 没有 太 多 经 验 , 也 不 需要 理解 极限 带 来 变化 的 情况 
下 重新 认识 分 布 。 在 描述 了 入 的 理解 、 基 于 入 的 度量 以 及 最 大 粹 原理 下 ,不 仅 能 够 推导 
出 最 大 焙 的 分 布 , 还 能 够 更 为 完整 地 证 明 最 大 似 然 估计 。 尤 其 可 以 看 到 , 整个 指数 分 布 簇 
都 满足 最 大 焙 的 分 布 。 

因而 在 贝 叶 斯 统计 中 ,从 最 大 焙 的 角度 重建 了 整个 分 布 和 参数 估计 的 思想 ， 再 通过 
贝 叶 斯 推理 完成 了 统计 学 习 。 所 以 , BET BEES SD BIT AT A ERRORI RT JA o S A 
度 理 解 最 大 似 然 估计 及 指数 分 布 簇 。 


5.3 (ABATE 


ARS Ae VIG BOR PRE SE TE IS AT WA ES MOR, BEA 
AT JG BAY fis Er VL SOT HE BER EL APR) Ao 

鲁 道夫 。 克 劳 修 斯 (Rudolf Clausius) B—UWE XT HJIH A (Entropy); BARK 
& (Ludwig Boltzman) 引入 了 对 数 形式 , 并 且 进 行 了 统计 上 的 解释 ; 最 后 , 香农 (Claude 
Shannon) 提出 了 信息 米 ， 从 此 信息 粹 成 为 信息 学 科 的 重大 基础 。 


5.3.1 fem S 


ei RGA VLL A VE EAE SER P HO E BERE Cl 5.2 所 示 。 

鲁 道夫 。 克 劳 修 斯 (Rudolf Clausius) 是 出 生 自 波兰 科 沙 林 的 物理 学 家 , 他 从 能 量 守 
恒 的 角度 重新 认识 了 尼 古 拉 。 卡 诺 (Nicolas Sadi Carnot) 提出 的 卡 诺 热 机 和 循环 的 卡 诺 
原理 ,从 而 建立 了 热力 学 第 二 定律 ,并 命名 了 入 (Entropy)。 尼 古 拉 。 卡 诺 是 法 国 的 天 才 
物理 学 家 , 写 下 《 论 火 的 动力 》, 因此 成 为 热力 学 之 父 。 克 劳 修 斯 坚持 了 15 年 的 研究 , 成 
为 第 一 个 理解 并 命名 烂 的 巨人 。 

约 西亚 。 吉 布 斯 (Josiah Gibbs), 美国 第 一 个 理学 博士 , 统计 热力 学 的 三 剑客 之 一 , 他 
把 统计 引入 热力 学 , 在 克 劳 修 斯 的 基础 上 , 提出 了 能 量变 化 的 计算 。 统计 热力 学 的 另外 两 
位 剑客 是 詹姆斯 。 麦克 斯 书 (James Maxwell) 和 路 德 维 希 。 玻 尔 效 曼 (Ludwig Boltzman), 
一 个 来 自 剑桥 大 学 , 另 一 个 来 自 维也纳 大 学 。 

玻 尔 兹 曼 是 第 一 个 把 粹 定义 为 乱 序 的 统计 科学 家 ,他 从 统计 的 角度 解释 焙 ,并 且 引 
入 对 数 形式 。 后 来 吉 布 斯 对 此 进行 改进 ， 其 理论 成 为 统计 热力 学 的 基石 。 艾 尔 文 。 薛 定 
T$ (Erwin Schrodinger), 量子 力学 葛 基 人 , 第 一 次 把 概率 倒数 解释 为 状态 数量 , 这 样 衍生 
出 来 后 , 对 数 形式 就 可 以 解释 成 编码 长 度 , 并 且 引 入 了 人 负 号 。 
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克 劳 德 。 香 农 (Claude Shannon) 将 薛 定 廖 的 解释 正式 引入 信号 处 理 中 ,从 此 建立 了 
(ARM. 开创 了 信息 理论 。 他 和 约翰 。 汉 “。 诺 依 曼 (John von Neumann) ERHI RJ XE 
义 为 不 确 (定性 ) 的 测度 , 并且 给 出 了 H 函数 的 定义 。 

埃 德 温 。 杰 恩 斯 (Edwin T. Jaynes) 是 普林斯顿 的 杰出 统计 学 家 , 开创 性 地 通过 逻辑 
解释 统计 , 通过 最 大 焙 解 释 统 计 , 由 此 开创 了 统计 分 析 的 贝 叶 斯 学 派 。 正 是 这 些 科 学 家 的 
卓越 贡献 , A RAS i REA 


E 


eden 克 劳 修 斯 (b) 尼 古 拉 ' 卡 诺 (c) 约 西亚 ， 吉 布 斯 


; à A 


ORL- RES OWE A) aH "ITUNTT 
图 5.2 (EUER DUREE ERAS SERE OE A RR 


Gibbs Free Energy". 
AG = AH - TAS ys 


hy 


5.3.2 (E SEN 
FRE IS ROS A DALAI E PEE HERE: 假设 X AOR AAA v 的 随机 样本 ， 
对 每 个 样本 的 概率 常见 的 标记 有 P(zi) = P(X = zi) = pr,» 那么 信息 量 (X) 为 
I(X) = —Ino(P(X)) (5.104) 


Vai RH cE OE EA Bp 


H(X) = E[I(X)] (5.105) 
= Y PG) IG) (5.106) 
=— > P(a;) n2 P(ai), (5.107) 


i= 
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(1) 期 望 编 码 (Coding) 长 度 解释 : 基于 信道 编码 理论 , 按 概 率 分 布 对 采样 信息 的 二 
进 制 编码 的 计算 期 望 。 

(2) 不 确定 性 公理 化 (Aximatic) 解释 : 是 满足 不 确定 性 公理 化 假设 的 唯一 数学 形式 。 
5.3.3 ”期 望 编 码 长 度 解释 

REISE TM HEF RSA. BRET RRA. 把 HN 
KREAM RRK EU LR BE fei s E ERKE. BRA N 个 状态 数 , 那么 每 个 


状态 的 概率 p; = 1/N, JU N = 1/pi。 如 果 对 N 个 状态 数 进行 二 进 制 编码 , 前 缀 码 (Prefix 
Codes) 的 种 类 数 为 N, 那么 二 进 制 码 的 长 度 必须 要 为 


Len(pi) = log, N = log, = (5.108) 
假设 有 一 组 概率 值 {p1,p2,… ,pn}, 那么 我 们 要 求 平均 编码 长 度 为 
E(Len(pi)) = Y piLen(pi) = >》 pi logs x = 一 》 pi log» pi (5.109) 
i=1 * i=1 


i=1 
期 望 编 码 长 度 的 解释 比较 直观 。 首 先 通 过 概率 倒数 来 解释 成 状态 数 ， 然 后 通过 编码 
长 度 来 解释 log 的 作用 (图 5.3)。 


o © 3=—log(1/8) 
1 2 3 4 5 6 T 8 


5.3 ”编码 长 度 和 概率 的 关系 


其 实 , 这 种 解释 离 不 开 冯 。 诺 依 曼 , 他 是 在 看 了 香农 对 通信 系统 的 一 个 度量 不 确定 
性 的 公式 后 给 出 了 建议 , 将 信息 烂 和 玻 尔 兹 曼 在 热力 学 中 提出 的 HGRA TOK. BE 
EW Tt H 粹 基于 状态 数 的 解释 就 可 以 被 借鉴 参考 了 。 而 香农 是 如 何 推理 这 个 通信 系 
统 不 确定 性 的 呢 ? 
5.3.4 不 确定 性 公理 化 解释 

分 布 概率 的 不 确定 性 H(X) S H(pi, po, +++ ,pw), 必须 满足 不 确定 性 公理 的 四 大 假设 。 


UMETTIMETIETITSITARA 

(1) 非 负 假设 : H(pi,p2,--- ,pw) 20 

(2) 连续 性 假设 : H(p, po, --- ,pw) 对 全 部 自 变量 Pi 是 连续 的 。 

(3) 单调 性 假设 : 如 果 所 有 p; = 1/N, 那么 H(pi po, ,PN) 必须 随 着 N 的 增加 而 
不 确定 性 增 大 。 

(4) 全 加 性 假设 不 确定 性 是 随 着 概率 分 布 生成 过 程 来 进行 倒 加 的 。 下 面 举 几 个 
例子 。 

O 例如 ，4 变量 是 通过 X, Y, Z 来 生成 的 , X = zi,za， 当 zl 满足 对 应 Y, zo W 
足 对 应 Z 时 , 如 下 关系 成 立 


H(A) = H(X) + P(zi)H(Y) + P(z2)H(Z) (5.110) 


© 其 中 一 种 特殊 情况 是 A = Xi1,X2,… Xo MA 


H(A) = Y (X) (5.111) 
a 
Q 另 一 种 特殊 情况 是 ， 有 相互 独立 的 两 个 事件 Y = yi,y2,… ,yn A Z = 21, 20,-°°, 
Zm: 那么 
H(YZ) - -$ Eau) = = Da yi) + Yale) = zj) = H(Y) + H(Z) (5.112) 
ilg 2 
满足 上 面 4 个 公理 条 件 的 唯一 形式 是 
H(X) = PL Fal (5.113) 
根据 连续 性 假设 和 式 (5.112), 分 别 对 y 和 y RE, 得 
Yrs on) = (y); > 20" (nzi) = ' (ye) (5.114) 
E px 
Lai (yz) — d (n25)] = 9 (ye) — (Ue) (5.115) 
而 上 述 表 达 式 的 右边 部 分 是 跟 zj 没有 关系 的 。 
Y zilo (yxz5) — &' (uz) — (9 (uk) — 9 (u))] = 0 (5.116) 
= 


对 任意 独立 的 Y、2, 在 上 述 公式 都 成 立 的 情况 下 , 可 以 进一步 推导 出 


P (YE27) — PY27) — (6 (yx) — $'(ye)) =0 (5.117) 
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9! (yxz5) — d (uzi) = ó (ux) — (v) (5.118) 
MRE y, — 1, 则 
d! (yxz5) — d (uzi) = (ye) — (v) (5.119) 
9 (ykz;) — d (zi) = 9 (Yk) — à (1) (5.120) 
9 (yxz;) = 6 (yx) + (5) — 9'(1) (5.121) 


当然 这 也 可 以 从 式 (5.112) 进行 证 明 。 


d (ykz5) = d (yx) + 9 (25) — (1) (5.122) 
9! (ykz) = (yx) + ó' (25) (5.123) 


由 此 , 转化 成 柯 西 函数 公式 (Cauchy's Function Equation) 的 f(x) = Az + B. 得 


f(z+y)= f(x) + f(y) (5.124) 
fn ys +lnz;) = f(Inyx) + f(In z;) (5.125) 
¢ (x) = f(Inz) (5.126) 

ó'(r) 2 KInz - B (5.127) 

9(z) = Kzlnz + (B- K)r +C (5.128) 


另外 根据 不 确定 性 定义 , 概率 为 0 和 1 都 是 确定 的 情况 , 因此 有 e(0) =0, (1) 20. 于 
是 得 到 C=0,B-K =0, 由 此 可 得 


d(x) = Kring (5.129) 
H(X) = ¢(P(X)) = in dd a P(an)}) (5.130) 
- = Sow PG) Fal j (5.131) 
- KY P(z;)In P (5.132) 

i=1 * 


这 样 , 通过 公理 化 的 假设 可 以 推出 信息 粹 的 一 般 形 式 , BR ORES ET, 解释 
起 来 比较 困难 , 但 却 是 对 期 望 编码 长 度 解释 的 很 好 的 数学 论证 。 


5.3.5 BTRHES 
1. 相对 入 
EERE ELE, ARASH SIAR (Relative Entropy, RE) 的 定义 


2-y pim £O 
RE(P|Q) = DP ) na 
1 


1 
- > P(i) (n py -ln aw? (5.133) 
式 (5.133) 可 以 这 样 理解 : 给 定 Q 分 布 , 想 知道 在 P 分 布 情况 , 于 是 就 用 P 的 编码 
KERE Q 的 编码 长 度 在 P 分 布下 的 期 望 作为 一 种 衡量 。 
2. KL 散 度 


从 相对 倘 的 概念 可 以 定义 出 两 个 分 布 的 散 度 。 由 于 相对 炉 恒 小 于 0， 且 散 度 定义 要 
求 其 必须 非 负 ， 所 以 在 相对 灶 的 前 面 加 一 个 负 号 , 就 得 到 了 需要 的 散 度 ， 即 KL BE 
Di (P]Q) = -Fron 


1 
-ro (ag 70 -nz ) (5.134) 


给 定 QA, P 分 布 与 8 分 布 的 KL 散 度 即 为 Q 的 编码 长 度 与 D 的 编码 长 度 之 差 


ngg hpg E P Elit. 从 图 5.4 可 以 看 到 编码 长 度 之 差 可 能 有 正 有 负 , 然后 
He P 的 概率 密度 积分 就 是 编码 长 度 之 差 的 期 望 了 。 


pa(PlO) 


原始 的 两 个 正 态 分 布 两 个 分 布 差异 的 KL 区 域 
图 5.4 KL 散 度 (Kullback-Leibler Divergence) 


KL HERR T MARXA, 还 可 以 从 Bregman 散 度 去 理解 。 在 前 面 的 章节 详细 
解释 过 这 种 理解 , 就 是 KL USERS BSE EK Bregman 散 度 


Dj(PlIQ) = f(P) - f(Q) - Vf(P)(P - Q) (5.135) 


全 s$ LLLLELEEN 


其 中 函数 
F(p) =} pli) np) (5.136) 
由 此 可 得 广义 的 KL 距离 
Dki(PIIQ) = Dr(p,q) = D> pi) In = - Yl») YQ) (5.137) 
3. 互信 息 
互信 息 (Mutual Information, MI) 的 定义 如 下 
z y) mn PY 
I(X;Y) = rm ,y)l Fons (5.138) 
1 
7 » d y (v zc; pr) | uc 7) m 


假设 X 5s Y 相互 独立 , 那么 p(z,y) = p(z)p(y). 于 是 互信 息 的 直观 意义 就 是 X. Y 
在 假设 独立 情况 下 和 真实 的 非 独 立 情况 下 的 编码 长 度 之 差 在 X 和 YY 联合 分 布 上 的 期 望 。 
对 这 个 式 子 进一步 化 解 , 有 


I(X;Y) = Late y)! aue (5.140) 
= = Lirty) PCy) in me (5.141) 
= Y»o Drr(p(zly) llp(z)) (5.142) 
= Ey{Dxx(p(2ly)||p(z))} (5.143) 


因此 互信 息 也 可 以 看 成 条 件 分 布 paly) 到 分 布 pl) 的 KL BREE Y 上 的 期 望 。 
此 外 ， 互 信息 还 和 条 件 燃 有 着 极 大 关系 一 一 互信 息 可 以 看 成 是 粹 和 条 件 烂 之 差 
(图 5.5), 即 


I(X;Y) = Yr (x,y) In 一 一 (5.144) 
= Dv y) "es -Zr y) lInp(y) (5.145) 
= Sn (x)p(y|x) In p(ylz) 一 Y» (x,y) In p(y) (5.146) 

TY TY 


= Y») (Fr inia) - 3 mp (Zren) (5.147) 
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- -Mp)H(Y|X = 2) - 3 n p(u)ply) (5.148) 
rd y 

= -H(Y|X) + H(Y) (5.149) 

= H(Y) - H(Y|X) (5.150) 


A(X) H(Y) 


H(X,Y) 


5.5 互信 息 (Mutual Information) 


5.4 RAFE 


ATREA FYRRA 7 1 3E ERE VE SERI AKSR. 
5.4.1 RAMA BBA 


假设 总 有 N 的 定额 配 量 (quanta) 分 到 M 个 状态 中 , 若 每 个 状态 中 分 到 ni 那么 处 
在 那个 状态 的 概率 为 
ni 


Pi 三 N 
现在 的 问题 是 如 何 配置 po 使 得 分 配 N 个 球 到 M 个 状态 的 状态 数 最 大 。 这 个 过 程 类 似 
TON AR M 面 般 子 的 多 项 式 分 布 ,那么 会 掷 出 多 少 种 不 同 的 状态 数 呢 ? 根据 多 项 式 组 


P 
[4j 


(5.151) 


N! 
nalna! --- Mm! 


BURT WT RETI M 种 情况 , 因此 总 数 为 my 次 , 由 此 概率 为 


Pp) =" (5.153) 


(5.152) 
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概率 越 大 , 或 者 说 W 越 大 (或 者 说 哪 种 状态 分 配 下 , 可 以 选择 的 排列 数 越 多 ), 表示 该 种 
状态 分 配 的 不 确定 性 越 大 ， 即 焙 越 大 。 则 最 大 不 确定 性 就 是 要 最 大 Wo 假设 固定 状态 数 
M, 让 实验 数 N 一 oo, 根据 玻 尔 兹 曼 的 定义 形式 , 有 


1 1 N! 
gaW- xv. Ad (5.154) 
1 N! 
N Wel (pa) (Np 人 
= E (n NI- Sawn) (5.156) 
24 N 趋 于 无 穷 大 的 时 候 , 根据 斯 特 林 公式 近似 
Inn! = nInn — n + O(Inn) (5.157) 
可 以 得 到 
iim (s iw) Ex (xax -N- x (Npiln(Npi) — nn) (5.158) 
N—o NN N rant 
=InN - 5 5 In(Np;i) - N ( - X») (5.159) 
i=1 i=1 
=mN-mNY`p;-Y`p:Inpi (5.160) 
1 $l 
= (Er) nN -Spilnp; (5.161) 
i=l i=l 
= Da lnpi (5.162) 
= H(p) (5.163) 


EHETE T ARES, BIA s EREA EARS 
确定 性 最 大 。 


5.4.2 RANE ARERI RR 
广义 线性 模型 部 分 中 用 到 的 自然 指数 分 布 簇 所 具有 的 通 式 , tp Be 
出 。 首 先 给 出 3 个 假设 和 1 个 目标 。 
(1) 初始 观察 分 布 m(z): 这 个 可 以 是 随意 的 观察 情况 , 不 一 定 必须 是 一 个 分 布 函数 。 
(2) X f) =1, f(z) > 0: 满足 分 布 函数 的 条 件 , 这 里 仅仅 考虑 离散 的 情况 。 
zE 


:MEETTIMETITITITSITARM 


O) D tee) = B(t,62)) = nj» 其 中 je J: t) 是 在 数据 集合 的 一 个 测量 函数 ， 
re 
并 且 测 量 值 的 期 望 是 ujo 
(4) 目标 : arg max RE(f(z)|m(z)): 希望 找 一 个 函数 满足 上 述 的 限制 条 件 , 并 且 尽 可 
RES HISAR A A AT EK 
f(z) 


m(x) 


RE(f(x)||m(x)) = — > f(x) In 


ZES 


(5.164) 
应 用 拉 格 朗 日 乘 子 法 , 有 
L(f) - - M; f(r) Ae +A (x f(x) - 1) 237 (x t;(x) f(x) 一 m) (5.165 
ZES 


res jeJ res 

4 L(f) 对 f f) SOS o, 即 
oe D ro a (5.166 
= - In f(z) + Inm(x) - 1-- A-- V 6jtj(z) (5.167 

jeJ 
从 而 得 到 
f(x) = m(z) exp b -1+5 sse] (5.168 
jeJ 


接 下 来 应 用 概率 求 和 为 1 的 限制 条 件 , 即 


123 f()- Esos eno] (5.169) 


ZES res ged 
=e > mz) exp [gwal (5.170) 
zES jes 
TRA 
1-A=Ihn p mí(z) exp [gese] ) (5.171) 
zES jes 


将 式 (5.171) 的 右边 定义 为 5(9), 其 中 9 = (1, 02,- 01) t2) = (t (2), (2). tio); 
则 


b(0) = In (x m(z) exp b «sc (5.172) 
res jet 


2] ssh nearsa 09 
= In (E76) (5.173) 


21-A (5.174) 


在 式 (5.168) 中 替换 1 — A 得 到 f(z) 的 如 下 形式 : 


f(x) 2 m(z) exp LE 十 》 yt; el (5.175) 


ged 
—m(z) exp[t(z) ' 0 — b(0)] (5.176) 


3K (5.176) 即 为 自然 指数 分 布 徐 的 形式 , 其 中 b(9) ERA REC. HAA AR 
就 是 最 小 KL BUS, 由 此 可 以 看 出 , 自然 指数 分 布 禾 的 形式 , 其 实 就 是 与 初始 观察 分 布 最 
相似 的 并 且 满 足 对 不 同 定义 的 测量 值 的 期 望 是 固定 的 情况 下 的 概率 密度 函数 。 


5.4.3 RARER AIM hit 


BAHR I AMAT DFE HB RB ATT ELT AEA RAKAR i VE BREVE: 
基础 。 

假设 我 们 观察 到 N 个 样本 , 那么 根据 样本 的 估算 概率 , 或 者 说 根据 频率 来 计算 一 个 
经 验 分 布 p(x), 定义 为 


1 N 
Blt) = x Y (nm) (5.177) 
n=1 


其 中 , 6(z, zn) 是 狄 拉克 测量 (Dirac Measure), 在 这 里 和 指示 函数 等 价 。 
根据 大 数 定理 可 知 ， 当 抽样 n — oo 时 , p(x) 一 p(z)« RBA AA VE SUIS AS 
样本 的 估算 概率 5(z) 与 给 定 参数 的 条 件 分 布 p(z;9)。 BATH ROGER 


RE Gps) = = Do) mR (5178) 
= - Y ple) In i) + Y P(e) In (16) (5.179) 
根据 最 大 相对 炳 , 有 
max RE Bzjlptzlo)) + min Dicz Gli) (5.180) 
= 0° = argmax RE (jr) (rl) (5.181) 


>= arg max Yala) In p(z|8) (5.182) 


V naža: Hateomesnn EC 
将 前 面 的 经 验 分 布 代入 , 得 


N 
Yale) ngleo) = E + Y e, zn) m plajo) 


N 
- x > »» ó(z, £n) In p(z|0) 


n=l Zz 


1 N 
=F Y neon) 
而 同时 对 数 似 然 函数 的 表达 式 为 


N 
£(6) = Ih P(X|0) = Y Inp(znlg) 
n=1 


0* = argmax RE (Gr) lr) 
= argmax DB(z) In pz 
14V 
= argmax 入 »» lnp(zn|0) 


1 
= arg max wo 


= arg max £(8) 


FIERE CARE, 可 以 得 出 最 大 似 然 估计 。 此 外 根据 式 (5.180), 可 以 得 到 
RE (p(x)|p(|0)) = —Dxr (5(z)llP(zl0)) = H(p(z)) + x0 


这 个 表达 式 在 变 分 分 析 (Variational Analysis) 中 可 以 被 用 来 构建 逼近 下 限 。 


5.5 小结 


(5.183) 


(5.184) 


(5.185) 


(5.186 


(5.187 
(5.188 
(5.189 


(5.190 


(5.191 


(5.192 


从 统计 学 习 的 两 大 基础 (参数 估计 和 概率 分 布 ) 出 发 , 我 们 着 重 讲述 了 最 大 似 然 估 计 
和 高 斯 分 布 的 重要 性 。 一 方面 呼应 了 之 前 结构 风险 最 小 化 的 贝 叶 斯 先 验 理解 ， 应 用 了 
结构 风险 最 小 化 的 贝 叶 斯 ; 另 一 方面 , 通过 最 大 粹 重新 理解 了 概率 分 布 。 尤 其 通过 频率 
派 、 经验 派 和 贝 叶 斯 派 之 间 的 差异 理解 最 大 粹 之 上 的 最 大 似 然 估计 和 整个 指数 簇 概率 分 


A. 为 前 面 的 广义 线性 模型 和 经 验 风险 最 小 的 深入 理解 英 定 了 基础 。 


TI ss on-xassa 2 
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前 面 的 章节 分 别 从 广义 线性 模型 和 结构 风险 最 小 两 个 角度 对 逻辑 回归 进行 了 推导 和 
解释 。 逻 辑 回 归 是 一 个 两 类 问题 的 分 类 算法 ， 如 果 面 对 的 是 多 类 问题 的 分 类 算法 ,应 该 
怎么 办 呢 ? 接 下 来 要 从 解决 两 类 问题 的 逻辑 回归 推广 到 解决 多 类 问题 的 Softmax 回归 
(Softmax Regression)。 另 外 Softmax 直接 对 应 到 概率 图 模型 里 面 的 Log-Linear 模型 和 深 
度 学 习 里 面 常用 的 Softmax AN. AERARMEA T, 继续 挖掘 Softmax 的 意义 。 


6.1 ”二 项 分 布 和 多 项 分 布 


1. 伯 努 利 分 布 


对 伯 努 利 分 布 Bernoulli(p) 进行 说 明 最 常见 的 例子 是 抛 硬币 。 假 设 抛 一 次 硬币 正面 
的 概率 p. 那么 反面 的 概率 就 为 1 - p. 把 两 者 统一 起 来 , 所 以 伯 努 利 分 布 的 概率 表达 式 
是 


f(p-rüu-p»'-. ze(01) (6.1) 
2. 二 项 分 布 
如 果 连 续 地 抛 一 个 硬币 n 次, 那么 就 得 到 了 二 项 分 布 Binomial(n,p)。 所 以 二 项 分 布 
是 一 组 伯 努 利 分 布 变量 之 和 , 即 


n 
Xk ~ Bernoulli(p) > Y = SOX ~ Binomial(n, p) (6.2) 
k=1 


fain) = (rp zeo, n (63) 
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可 以 看 出 伯 努 利 分 布 是 二 项 分 布 的 一 个 特例 , 即 


Bernoulli(p) = Binomial(1, p) (6.4) 


3. 多 项 分 布 
ETE Th RRS. APMED K 个 面 , HER n 次 , 则 二 项 分 布 变 成 多 
项 分 布 M (21,12, zl p, pK)o 
n! us 


f(v1,@2,°*+ ,@K}N,P1,Pa,*** ,PK) = a ERs Yn (6.5) 


i=1 


r( Ze K 
Tec» at I» C 为 伽 玛 函 数 ) (6.6) 
i jd 


因此 二 项 分 布 又 是 多 项 分 布 的 一 个 特例 , 即 


Binomial(n, p) = Multinomial(x,n — x|n, p, 1 — p) (6.7) 


这 里 需要 说 明 , 如 果 改 成 若干 块 (T ER) 不 同 概率 的 硬币 (qe 是 第 t 块 硬币 正面 的 概 
A) 一 起 抛 , 那么 这 相当 于 K = 27 的 多 项 分 布 。 RB k—1=br---bobr, by € {0,1} Æ k 
的 二 进 制 表示 , 那么 


T 
p, = [[a* à - a) (6.8) 
1 


F 


T 
J(21,22,7:- ,z im pipa» pk) = f (so ,727;n, [ [aO - a). Tl) (6.9) 


t=1 t=1 


6.2 Logistic 回归 和 Softmax 回归 


6.2.1 ”广义 线性 模型 的 解释 


根据 广义 线性 模型 Logistic 回归 是 对 应 到 E(Y) ~ Binomial(n, p). 而 Softmax 回归 
对 应 到 E(Y) ~ Multinomial(zi,22,:-- ,ZK|n,p1,p2,"… ,PK)。 既 然 给 定期 望 输出 所 服从 
的 分 布 , 则 通过 对 应 的 链接 函数 很 容易 推出 Softmax 回归 
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E——————————— 


Y ~ M(eci,02,:-- ,ck|n; pi; pos PK) € Hik = E(yi = ek) & (6.10) 
n K 
£(u|Y) 7 IZ Gatti = cx)) (6.11) 
i=1k=1 
则 链接 函数 
g(uix) = mk = OR Li + bok = OF wh 6 (6.12) 
g = (g(n).g(uio),: ,g(uik))! = (Qna mk)! =n (6.13) 
可 以 得 到 两 种 不 同形 式 的 链接 函数 : 
em 
K 
1 ye 
Inn. +C a Z " 
n= à egi=| : |= : Pe =C (6.14) 
k=1 
Inpe +C a = 
ye 
k=1 
en 
pi K-1 
i T In ki em 14 NS em 
n K 
de k=1 
PK 2 Pk ye 
H k=1 
me i = 7 el A = enk-i 
"= Ban | we | * 7| 5 [T | 
PK D = ene Ea > emk 
1 一 Dk E k=1 
0 kai 3e 1 
0 k=1 K-1 
1+ b» gh 
k=1 


6.2.2. Softmax 回归 
1. Softmax 函数 


Softmax 函数 是 广义 线性 模型 中 的 多 项 分 布 的 链接 函数 。 因 此 , 多 项 分 布 对 应 的 回归 
又 称 为 Softmax 回归 。 


5 (6.16) 


de 


k=1 
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2. Softmax 回归 的 解释 

Softmax 回归 一 般 也 称 为 多 类 逻辑 回归 (multiclass LR), 可 以 看 成 是 适合 两 类 问题 的 
逻辑 回归 扩展 到 多 类 问题 的 逻辑 回归 。 前 面 章节 中 指出 对 多 项 分 布 有 两 种 不 同形 式 的 n， 
因此 可 以 基于 不 同 的 7 给 出 两 种 解释 。 注意, 本 质 上 两 个 链接 函数 是 等 价 的 。 

(1) K 一 1 个 独立 二 元 逻辑 回归 : 在 这 种 解释 下 , 分 别 把 前 K 一 1 个 类 别 和 第 K 个 
类 别 进行 对 比 。 


Pr(¥i=1) _ i 
np R= PX 6.17) 
Pr(¥j=2) _ 
mE -xp-^ X 6.18 
: 6.19 
P(Y-K-1) _ 
m Br xX 6.20 
由 此 推出 
Pr(¥j = K)=—+ 6.21 
1+ >> ePeX 
k=1 
i 
Pr(Y; =1) = aa 6.22 
1 十 ePeXi 
k=1 
de. 
Pr(Y; = 2) = A 6.23 
1+ Pn X 
k=l 
6.24 
-1 Xi 
Pr(¥; = K-1)= 6.25 
14 Y, eX 


(2) Log 线性 (Log-Linear) 模型 : 在 这 种 解释 下 , 这 K 个 类 别 对 等 看 待 ， 这 样 就 要 
引入 一 个 归 一 化 因子 2。 由 于 指数 里 面 是 一 个 线性 函数 , 所 以 该 模型 又 被 称 为 Log 线性 
模型 。 


Pr(Y; = 1) = fA (6.26) 


Pr(¥; = 2) = zo (6.27) 


METTIMETITITITSITAUA 


(6.28 
Pr(Y; = K) = LE (6.29 
1 3 Pr(Y; =k 3 Lx — 1 2 
2_Pr(Yi =h) = she (6.30 
bal k=1 k=1 
K 
Z=) PX (6.31 
k=1 
若 做 一 些 更 为 一 般 化 的 替换 
V(x) = [1,2,--- , K] 6.32 
6 = [B81, 85.--- Bx] 6.33 
f(x,y) = [6(y, 1)z, 5(y,2)a,--- ,5(y,K)x] (54 Dirac delta 函数 ) 6.34 
就 能 得 到 一 般 化 的 表示 , 即 
Pr(y|z) = zi 6.35 
Z(a)= Y) e feo 6.36 
y'ey(z) 
当 基 于 最 大 似 然 估计 来 学 习 参 数 时 , 有 
z 1 ICRA 
£(0) = 2 tated = » (zi K ?) (6.37) 
- Y (0f (ei vi) - InZ(z;) (6.38) 
i=1 
-È (rre. y)-h 2 erm) (6.39) 
i=1 y'EY(z) 


一 


面 表达 式 分 为 两 部 分 , 前 面 一 部 分 是 线性 97f(zi,yi), 后 面 一 部 分 是 对 数 形 式 , 所 
以 称 为 Log-Linear 模型 。 


6.2.3 RARES Softmax 回归 的 等 价 性 


最 大 炳 原理 是 一 个 用 于 选择 随机 变量 统计 特性 的 原则 ,其 主要 思想 是 ,在 只 掌握 关 
于 未 知 分 布 的 部 分 知识 时 , 应 该 选取 符合 这 些 知 识 但 业 值 最 大 的 概率 分 布 。 
怎么 理解 这 个 原理 呢 ? 首先 引入 概率 、 X. Billet E 3 个 概念 。 
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(1) 概率 。 设 A; 表示 状态 i, Ai 发 生 的 概率 为 p(4i)。 假 设 状态 的 总 数 是 有 限 的 , 即 
i < +oo。 则 概率 分 布 p(4;) 满足 


p(4:)>0 (6.40) 
> p(4i)=1 (6.41) 


(2) Hi. WI TE] SE A HUBER X: 
S=- b» p(Ai) Ino p( Ai) (6.42) 


WOT ATED pA) 的 不 确定 性 (Uncertainty)， 所 谓 不 确定 性 ， 可 以 理解 为 对 确 
定 状 态 所 需要 的 信息 量 (Information) 的 一 个 量化 指标 。 从 式 (6.42) 可 以 看 出 , 当 各 状态 
的 概率 p(A;) 相等 时 ， 灼 值 最 大 。 在 没有 更 多 的 信息 之 前 “各 状态 的 概率 相等 ”这 个 
假设 是 相对 合理 的 。 可 以 这 样 理 解 : 降低 或 升 高 某 些 状态 的 概率 就 相当 于 引入 了 新 的 额 
外 的 假设 ， 而 在 这 些 众 多 的 假设 中 似乎 并 没有 哪 一 个 是 特别 合适 的 ， 因 为 不 能 在 没有 任 
何 信息 的 情况 下 主观 地 认为 某 些 状态 的 发 生 概率 大 于 另外 一 些 。 

(3) 限制 条 件 。 所 谓 限制 条 件 , 其实 就 是 上 面 所 提 到 的 额外 的 信息 。 限 制 条 件 的 存在 
会 打破 “各 状态 发 生 概率 相等 ”的 平衡 ， 使 得 某 些 状 态 的 概率 发 生变 化 。 从 式 (6.42) 来 
看 , 这 些 额外 的 信息 降低 了 对 分 布 p(4;) 的 不 确定 性 。 限 制 条 件 可 以 有 很 多 种 形式 , 如 某 
个 值 的 期 望 : 假设 每 个 状态 A 对 应 了 一 个 值 9(4;), 那么 其 在 分 布 p(4;) 上 的 期 望 限制 
AG, W 


> p(4i)g(4) =G (6.43) 


现在 通过 以 上 3 个 概念 来 理解 最 大 粹 原理 就 直观 多 了 : 在 满足 限制 条 件 的 前 提 下 ， 
不 引入 额外 的 假设 以 免 造成 不 确定 性 的 下 降 , 反映 在 数学 上 , 就 是 分 布 的 炉 最 大 , 即 每 个 
状态 所 分 配 的 概率 尽 可 能 平均 。 

可 以 看 出 ,最 大 入 原 理 的 求解 可 以 转化 为 在 限制 条 件 下 的 求 极 值 ORAL) 问 
题 , 就 能 使 用 拉 格 朗 日 乘 子 法 进行 求解 。 


1. Softmax 回归 


下 面 直接 从 最 大 烂 原 理 来 推导 出 Softmax 回归 。 
Yt olt) 表示 z 属于 第 v 个 分 类 的 概率 ,假设 一 共有 K 个 分 类 。 现在 不 对 o (x). 
的 形式 做 任何 假设 , 它 可 以 是 一 个 任意 复杂 的 函数 。 现在 要 根据 已 知 的 确定 的 信息 , 列 出 
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对 o(z), 的 限制 条 件 。 首 先 , o(z), 是 一 个 概率 分 布 , 所 以 每 个 分 量 大 于 0 且 求 和 为 1， 
即 


c(z),20 (6.44) 
x ce(z),—1 (6.45) 

其 次 , 希望 分 布 c(z)。 满足 训练 集中 数据 的 要 求 , BI o (m), 与 训练 集 的 数据 分 布 一 致 : 
Yee), - 三 ro) (6.46) 


其 中 , Lulul) 为 指示 函数 , 当 y(G) =u 时 值 为 1, 4 yli) Au 时 值 为 0。 5X (6.46) 的 意思 
是 , 在 每 一 个 分 类 里 ,任意 一 个 特征 ; 在 属于 该 分 类 的 训练 数据 eli) 上 的 求 和 ,等 于 
所 训练 的 模型 分 配给 特征 7 的 概率 质量 之 和 (z(i) 属于 分 类 u 的 概率 , 在 全 部 训练 数据 
上 求 和 )。 这 表明 olei) 是 对 训练 集 的 指示 函数 LUO) 的 一 个 很 好 的 近似 。o(z(2))。 
D PES "M 
D SCOMGCO (6.47) 
BUE TER. Jl. Bb de, HERBAMI 我 们 希望 在 满足 式 (6.44) ~ R (6.40) 
时 ， 要 求 式 (6.47) 取 到 最 大 值 .这 是 一 个 具有 限制 条 件 的 最 优化 问题 ,可 以 使 用 拉 格 朗 
日 乘 子 法 求解, 即 


m K n n 
LSS (Sowa, = Yes) 
j: i=1 


j-1v-1 i=1 
n K K n 
12307 (oo, - 中 -> > o(z(i))s In(o(z(i)).) 6.48 
i=1 v=1 v=1 i=1 
式 (6.48) 中 的 工 对 o(z(i)), 求 偏 导 得 到 
OL : ; 
Dea Avx(i) + B; — In(o(z(i)),) - 1 6.49 
4 EXSET 0, 有 
A,z(i) + 8; -In(c(z(i)),.) -1—0 6.50 
解 方程 得 到 
c(z(i)), = e^t 6.51 


根据 限制 条 件 式 (6.45), 概率 c(z(i))。 求 和 等 于 1, Bf 


k 
PR E ext 6.52 
v=1 
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于 是 得 到 
et = u—— (6.53) 
XuzG)-1 
2 e 
把 上 式 中 的 e^ RAR (6.51), 得 
gui) 
a(z(i)) — — (6.54) 
Ava(i) 
2e 
Bp 
eur 
c(z) ^ 下 (6.55) 
See 
式 (6.55) 即 为 在 前 面 从 广义 线性 模型 推导 出 来 的 Softmax 回归 。 
2. Log-Linear 模型 
假设 对 Softmax 函数 的 每 个 分 量 做 线性 扩展 , 那么 就 得 到 Log-Linear 模型 
lel 
exp («Ese y ) 
j=l 
(ylz; 9) = Zeo) A (6.56) 
lei 
Z(a;0) = » exp | c+ 226v) y) (6.57) 
y'eY 
写成 向 量 的 形式 
exp (87 f(z.y)) 
p(y|z;0) = — 298) (6.58) 
对 比 Softmax 函数 , 把 Softmax 的 每 个 输入 自 变量 变 成 线性 ， 即 
v(z,y) = 0 f(x,y) > (6.59) 
era) 
p(vy|z; 0) = o(v(z, y))yev = PESA (6.60) 
yeY 


这 样 , 有 了 LogLinear 的 假设 , 可 以 根据 训练 数据 X.Y 来 优化 参数 w. 根据 最 大 似 
然 估 计 , 目标 是 找到 Likelihood £(8) 对 6, 的 导数 形式 , BI 


£8) = In P(X, Y|@) (6.61) 


UMETTIMETIZTITSITAA 


N 
= Y np |) 


i=l 


N 
= Y Inp(vyilzi; )p(z;) 


i=1 
N N 

= > mpuilais 8) + > mp(ai) 
i=1 1 


04(0) Y 9 Inp(yilz;; 0) 
00, 00 


其 中 ,省略 与 参数 无 关 的 x Inp(z;). Hl 


4(0) = > Inp(yilzi;0) 
i=1 


对 于 式 (6.67) 求 和 项 中 的 一 项 mnp(ylzi;6) 有 

exp(9 f (zi, yi)) 
3 exp(0 f(x y) 
yey 


=6" f(zi,%) -n Y; exp(8' f (zi, y) 


yey 


In p(yi|v;; 9) =In 


上 式 右 边 第 一 项 对 0, KF 得 
8 0 
36,9 feu) = 96. (Fane) = fr (Ti, yi) 


id g(8) = Z exP(8" f (zs). 则 右边 第 二 项 为 
y'E 


Ing(@) 

上 式 对 0, KE 

Du 8)- ENS (0) 

3g, 29) = 58 99,7 
其 中 

35,90 = 32 is) exo(8" fis i) 
2 ED 

所 以 有 


Y felti v) exp(8" f (ni y) 
yey 
Y e0 Fany) 


yey 


98; Ing(@) 


6.66 


6.67 


6.71 


(6.73) 
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一 一 一 一 一 一 一 


T. / 
eS n wf exp(8 f(zi,y)) kd 
J, 0H y a 163) PE 
yey 
=> fr(zi,y )p(y |z;0) (6.75) 
yey 


最 终 , 把 式 (6.69) 和 式 (6.75) 结合 起 来 得 到 


Es = Y: 69,9) = fala, O) p» BOOEY) ^ (670) 


6.3 RAZITA Log-Linear 


Softmax 的 多 个 二 元 逻辑 回归 解读 和 Log-Linear RRT LA Mie AAR OR. Bil 
如 ,逻辑 回归 可 以 看 成 广义 线性 模型 ， 广 义 线性 模型 可 以 看 成 线性 模型 和 指数 簇 函 数 的 
融合 提高 ， 最 大 炳 模型 可 以 很 好 地 解释 指数 秘 函 数 。 下 面 直接 从 最 大 焙 角 度 来 解读 Log- 
Linear 模型 。 

假设 有 一 组 样本 数据 (z1,y1), (22, Y2) (Cn Yn)» 输入 数据 对 应 的 空间 集合 re 
X(V) = {v1,v2,… ,v1} 为 目标 数据 对 于 的 类 别 集合 y € VC) = {c1, c2,… , cm}。 这 样 
可 以 计算 (z,y) 在 空间 X(V) x VC) 的 概率 。 通过 频率 来 估算 


Pr(x = v;) = S1) >0 (6.77) 


#(@k = Vi, Yk = cj) 


" >0 (6.78) 


Pr(z = VY = cj) = 


那么 再 根据 一 组 特征 指示 函数 fi, fo,… fr 


TWEEN | = c; JF Hz € X(V.), 其 中 X(V) c XV) -— 

那么 ,每 个 特征 对 应 的 概率 估算 为 
Pr(f) = 2, y) fila, v) (6.80) 
= Pr) Pr(yla) fia. y) (6.81) 


Ty 


在 这 些 前 提 下 , 要 估算 Pr(y|z), WERAK FREE 


max H(Y|X) (6.82) 


naža: tagme ha F 


s.t. Pr(y|x) 20 
Xie) = 
2, Ex x) Pr(y|x) fi(z,y) -S Bis, y)fi(z, y), 每 个 特征 t € {1,2,:… , T) 
Em] 
JUpICKAKTERN 
H(Y|X) = E». x,y) In Pr(y|z) 
三 一 S Ru) (x) Pr(y|z) In Pr(y|v) 
所 以 根据 拉 格 朗 日 乘 子 法 ,得 到 


L(Pr(y|x),@, ào, à1) = - Y Er(z) Pr(y|z) In Pr(y|z) 


zy 


- Xo Pr(ylz) + (D> Pr(yla) — 1) 
y 


$1 ry 


再 根据 导数 为 零 求 最 值 , HUI 
8C(Pr(ylz),9,Xo, A1) 


um 0 Pr(y|z) 
T 
= -Pr(z)( + In Pr(y|z)) — Ao + Ai + D> 6Pr(z)fi(m, y) 
t=1 
In Pr(y|z) “Ea z, Mo at 1-20 +1) 
t=1 
Pr(y|z) = e Fe 


(6.83 
(6.84 


(6.85 


(6.86 


(6.87 


(6.88 


(6.89 


+ 和 (xs ) Pr(y|a) fila, y) -ESR vy) f(z, v) 


6.90 


6.91 


6.92 


6.93 


6.94 


注意 等 式 成 立 要 求 Pr(y|z) > 0 。 接 着 根据 概率 之 和 为 1, 因为 要 求 Pr(y|z) > 0, 所 以 不 


能 选择 全 部 y e V(C), 而 只 能 选择 对 应 z 存在 的 y € V(x) 
1= > Pr(ylz) 
y 


Y. 0 i2.) gis (C104) 
- 35 ec FG) 


y€ey(z) 


(6.95) 


(6.96) 
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45 (-1-Aot An) | 1 


ePi — (6.97) 
D Otfe(z,y) 
> et=1 
yey(z) 
替换 常数 项 进行 微 整理 , 有 
1 £ Ot fe (2,9) 
Pr(y|z) = ————À —— — e (6.98) 
È 0 fiy!) 
om 
y'EY(z) 
i 97 (zu) 
> Tier (6.99) 
y'EV(z) 
= mw Z(s)- 》 efe) (6.100) 
y'€y(z) 


这 基本 上 是 从 Softmax 演绎 而 来 的 Log-Linear 的 形式 , (AURA MT EGER 
推导 下 的 Log-Linear 对 指示 函数 的 数量 || f || = T 和 目标 集合 长 度 (C) || = m 并 没有 严 
格 要 求 , 但 是 很 明确 T > mm。 至 少 每 个 目标 元 素 应 该 对 应 一 个 特征 。 这 意味 着 对 Softmax 
对 应 的 log-linear 做 了 进一步 的 泛 化 。 

TEE KY P RUS INL A. Log-Linear 的 结果 , AU RE e AREE 
都 是 通过 Log-Linear 来 进行 化 解 的 。 


6.4 多 分 类 界面 


在 经 验 风险 最 小 中 介绍 了 两 类 问题 的 分 类 界面 , 如 经 典 的 逻辑 回归 


WLR = wema {15ml top-ulwT ey) (6.101) 


i=1 
在 这 个 分 类 界面 的 表示 中 y € (71,1), 分 类 界面 为 -ylw x +b), 更 为 一 般 化 的 表示 为 
f(zi;w)-— w'zi4b (6.102) 
yf(zi; w)z1 (6.103) 
如 果 进 一 步 泛 化 , $ 0 = [w,b], z' = [m1], WA 
olz’, y) ^ yz' (6.104) 
yf (zi; w) = y(w! zi +b) = y([w, b] [n,1]) = y0" a! = 0 d(e',y) (6.105) 
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这 种 更 为 泛 化 的 表达 式 0 o(', y) 称 为 多 分 类 界面 (Multi-Classification Margin), 因 
为 在 这 种 情况 下 , y 的 取 值 可 以 不 再 局 限于 两 个 对 称 的 值 。 同时 , 把 可 分 情况 下 的 线性 分 
类 界面 限制 w 的 取 值 , 泛 化 到 直接 求 极 值 ， 即 


w st. yf(xi;w) >1> max 0" ó(z', y) (6.106) 
下 面 从 感知 机 (Perceptron) 的 角度 来 理解 这 种 多 分 类 界面 在 多 分 类 情况 下 的 适用 性 。 
6.4.1 感知 机 和 多 分 类 感知 机 


为 什么 选用 感知 机 而 不 是 支持 向 量 机 呢 ? 因为 二 分 类 的 感知 机 的 分 类 界面 要 求 比较 
简单 (图 6.1): yf(z) = ysign(w'zi) > 1, 可 以 看 出 其 没有 要 求 是 一 个 唯一 的 最 优 分 类 界 


2 
H| arg maxw Tw o 


6.1. 感知 机 找 的 分 类 界面 , 未 必 是 最 优 分 类 界面 


感知 机 能 够 很 好 地 学 习 两 类 线性 分 类 y e {-1,1} 问题 。 
(1) 根据 输入 计算 当前 输出 


Îi = sign(w v) (6.107) 


其 中 , sign(z) 为 符号 函数 。 
(2) 找到 错误 分 类 的 点 , 更 新 权重 


w — w+ (yi Ti (6.108) 


如 果 我 们 替换 为 一 般 性 多 类 问题 Softmax 边界 wz,y) = yx, 那么 根据 输入 计算 求 
出 当前 估算 值 可 得 


Îi = arg max w  ó(z, y) (6.109) 
y 
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找到 错误 分 类 的 点 , 更 新 权重 , 有 
w — w  n(é(z, yi) — plz, %)) (6.110) 
Softmax 分 类 边界 泛 化 之 后 有 以 下 三 大 优点 。 
(1) 兼容 了 ye (71,1) 和 ye{0,1} 的 情况 , 通过 求解 
arg max w" ó(z, y) E argmax yw ' a (6.111) 
可 知 , 当 wTrz <0 时 , yw'r WEAH, 可 以 是 —1 或 0。 
(2) 兼容 了 多 类 问题 ,， 即 
argmax w'ó(z,y)— arg max[w1, --- ,WKY 1)z, --- ,6(y, K)a]" (6.112) 
相当 于 为 每 个 类 别 训练 了 一 个 0-1 的 子 分 类 器 。 
(3) 更 新 方式 满足 梯度 上 升 (对 应 求 最 大 值 ) 的 解释 ， 即 
T 
Du HE ~ ole,y) (6113) 
Aw = nAó(z, y) |3 (6.114) 


6.4.2 ”多 分 类 感知 机 和 结构 感知 机 


如 果 预 测 的 结果 y 不 是 一 个 标签 , 而 是 一 组 顺序 标签 y = (yi. 92, yr)» 则 感知 机 
成 为 结构 感知 机 (Structured Perceptron)。 这 是 进一步 的 泛 化 , 泛 化 之 后 , 整个 感知 机 算 
法 的 变化 就 是 对 于 每 个 输入 z 需要 生成 待 检验 的 序列 y = GEN(z). 即 


$e max w'ó(z, y) (6.115) 
w— w t n(ó(z.y) — ó(z. ĝ)) (6.116) 


所 以 , 通过 多 分 类 泛 化 和 顺序 结构 泛 化 , 再 结合 经 验 风险 最 小 的 思想 , 可 以 得 到 一 个 
线性 分 类 器 标准 


De argmax w'ó(r,y)— argmin (-w' d(x, y)) (6.117) 


HH, g(x,y) 是 定义 在 训练 数据 上 的 特征 ， 并 且 这 个 结果 刚好 是 Log-Linear 的 线性 
部 分 。 
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6.5 ”概率 图 模型 里 面 的 Log-Linear 


MARA HES FT DG tH, Log-Linear 模型 的 最 大 好 处 是 用 最 大 炉 来 弥补 直接 根据 频 
率 估算 条 件 概率 的 缺陷 , 即 


Pilyje) = ZED y Pew) (6.118) 


Pr(z) Pr(z) 

其 中 有 以 下 两 个 重要 的 原因 。 

(1) 频率 的 估算 的 概率 分 布 离散 不 光滑 , 很 容易 导致 概率 为 零 的 情况 。 虽 然 有 很 多 概 
率 光 滑 的 手段 ,但 是 最 常用 的 指数 概率 分 布 都 是 可 以 依据 最 大 焙 来 推导 。 所 以 基于 最 大 
焙 的 光滑 是 非常 好 的 策略 。 

(2) 限制 条 件 的 使 用 不 够 灵活 , 而 Log-Linear 里 面 的 限制 条 件 的 使 用 非常 方便 灵活 。 

因此 , Log-Linear 模型 成 为 限制 条 件 下 求解 条 件 概率 估算 或 者 判别 问题 (Discrimina- 
tive Problem) 的 方法 。 

有 了 条 件 概 率 表达 式 , 可 求解 最 大 炉 表 达 式 , 如 下 。 


Pr(ylz) = ae (6.119) 


其 中 2Z(o)= Y; ee Fev), 
y'€Y(z) 

另外 从 多 分 类 到 结构 分 类 中 , 重新 认识 了 Log-Linear 的 线性 部 分 。 接 下 来 通过 类 似 
结构 风险 最 小 的 原则 , 描述 从 Log-Linear 模型 泛 化 出 Softmax-Margin 的 方法 。 

根据 经 验 风 险 最 小 和 负 的 对 数 似 然 (NLL) 的 关系 有 

OG, = arg TOY —0" f (zi, y;) - In > e? f(ziy’) (6.120) 
e r y'EY(z) 

这 个 结构 Log-Linear 称 为 条 件 对 数 似 然 (Conditional Log-Likelihood). HRE, 这 个 就 是 
逻辑 回归 的 损失 函数 ， 即 


LosscLL(z) = In(1 + e^?) (6.121) 
采用 类 似 的 损失 函数 替换 : 
LossMM(z) = max(0, m — z) (6.122) 


可 得 到 Max-Margin 的 形式 , 即 


" 
* - ; aT g y à y 1 1 
Ox aremn > 9 f(zi yj) max, (e f (wi, y') + cost(y;, y’)) 


这 里 引入 一 个 通用 的 代价 函数 Cost(yi, y^) 来 比较 候选 值 和 期 望 值 之 间 的 差异 。 


如 果 把 这 种 比较 作为 先 验 引 入 到 CLL 中 


n 

* " T T F(z;, E 

05 = arg min > —0 f (xi, yi) +n J e? Flziy')+cost(y: y") 
ici y'eX(z) 


就 会 得 到 Softmax-Margin 的 算法 , 对 应 的 损失 函数 为 
LosssM(z) = In(1 + e"77) 


假设 直接 利用 条 件 概率 计算 期 望 代价 作为 风险 (Risk), 即 


O2 Fai) 
Bius = rg mn J > cost( Yi y) ——— rr y) 
Pe EA y'€X(z) 


则 风险 的 损失 函数 比较 直接 ,就 是 指数 形式 表示 的 概率 乘 以 代价 


e? 


"y 十 6 一 


更 进一步 , 利用 Jensen 不 等 式 和 期 望 直接 的 关系 , 求解 Risk 的 一 个 上 限 


LossRisk(z) 一 


E[cost(y;, -)] = Elln(e***t99)] < In Eesti] 


可 以 得 到 Jensen Risk Bound 的 表达 式 


n 
M. cres i es 0" f(x,y’) 9 f (zi.y')cost(y; y^) 
O05nn = argmin > ， In > e +In X e 


i=l y'cy(z) y'cy(z) 
对 应 的 损失 函数 为 
l4 en-2 
Lossjna(z) = lñ ( Ire” ) 


(6.123) 


(6.124) 


(6.125) 


(6.126) 


(6.127) 


(6.128) 


(6.129) 


(6.130) 


基于 Log-Linear 的 分 类 边界 定义 通过 类 似 的 风险 函数 和 Jensen 不 等 式 的 扩展 , 得 到 
一 系列 Log-Linear 类 似 的 分 类 函数 (如 图 6.2 所 示 ), 这 些 函 数 不 仅 可 作为 多 分 类 。 还 可 
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Jum 3. 算法 背后 的 理 沦 与 优化 EL 


EE eee 


3n 


===. Softmax-Margin:log(1--exp(m-— 2)) 
een Max-Margin:max(0,m—z) 

=-=- CLL:log(1+exp(—z)) 

— (mx I(z<0) 


Jensen Risk Bound: log CFP) mn a 
1+exp( 一 


Loss Incurred 


z=Classifier Scorex True y 


图 6.2 基于 Softmax 边界 的 损失 函数 


6.6 ”深度 学 习 里 面 的 Softmax 层 


正 是 因为 Softmax 和 多 分 类 问题 的 良好 对 应 , 在 神经 网 络 中 ，Softmax 激活 函数 常 
常 和 交 又 烂 损失 相提并论 。 


根据 Softmax 估算 到 条 件 概率 分 布 


efile) 


PSI (6.131) 
ri 


qi = 


另外 , 正确 分 类 对 应 的 Dirac 分 布 


p=(0,---,1,---,0], Xmp = 6(yi,i) (6.132) 


那么 计算 两 个 分 布 直 接 交 叉 (Cross-Entropy) 


H(p,q)=— > p(x) nq(a) = H(p) + Di(pl|a) (6.133) 


æ 


因为 p 是 Dirac 分 布 , EMI H(p) AS. 所 以 H(p, q) = Drr(pllq)。 相 当 于 要 求 
一 个 Softmax 对 应 的 分 布 和 结果 分 类 的 分 布 是 最 接近 的 , 所 以 根据 KL 距离 关系 , 等 价 
求解 一 个 与 结果 分 布 最 接近 的 Softmax 分 布 。 所 以 交叉 炉 可 以 视 为 Softmax 的 损失 函数 。 
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再 因为 p(z) 是 Dirac 分 布 , 那么 求 和 之 后 就 是 负 的 对 数 损失 
efi(z) 
Loss; = —In(gj) = —1n yo (6.134) 
E] 
=-fi(z) +n ei? (6.135) 
j 


这 里 可 以 看 到 损失 的 计算 需要 等 到 所 有 节点 的 计算 结果 , 这 个 计算 量 相当 大 。 

所 以 Softmax 在 神经 网 络 应 用 的 突破 之 一 就 是 近似 求解 。 其 中 基于 采样 方式 的 Im- 
portance Sampling， 再 引入 稳定 性 更 好 的 Noise Contrastive Estimation， 再 到 Negative 
Sampling, 再 加 上 GPU 的 使 用 , 使 得 基于 Softmax 深度 神经 网 络 的 概率 计算 成 为 主流 。 


probabilities 
green 
Za w T 
z-|-|wi||z 
2K wj T, 
图 6.3 Softmax 激活 函数 的 神经 元 层 
6.7 小结 


这 里 通过 从 二 项 分 布 到 多 项 分 布 的 引入 和 通过 最 大 燃 证 明了 Softmax 回归 的 形式 ; 
再 通过 Softmax 形式 的 解读 拓展 , 引入 了 Log-Linear 的 形式 ; VIRARE T — 
的 Log-Linear 形式 。 为 了 更 好 地 解读 Log-Linear 形式 , 引入 了 多 分 类 的 分 类 界面 来 解读 
Log-Linear 的 线性 部 分 , 再 通过 类 似 结构 风险 中 的 各 种 损失 函数 引入 Log-Linear 的 重要 
扩展 形式 , 尤其 是 Softmax-Margin; 最 后 , 通过 Softmax 层 解释 了 神经 网 络 中 的 多 分 类 。 
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在 第 4 章 “ 结 构 风险 最 小 ”中 从 函数 空间 的 角度 对 结构 风险 进行 了 解释 , 利用 拉 格 
朗 日 乘 子 法 表明 结构 风险 最 小 实质 上 是 一 个 带 约束 条 件 的 优化 问题 。 当 时 只 是 直接 使 用 
了 拉 格 朗 日 乘 子 法 ， 并 未 对 该 方法 本 身 进行 说 明 。 在 机 器 学 习 领 域 中 随处 可 以 看 到 它 的 
身影 。 本 章 将 会 对 拉 格 朗 日 乘 子 法 进行 介绍 , Jar CARES COS Tn. 逐步 探究 它 的 来 源 和 
本 质 。 


7.1 DHH 


7.1.1 GHEE 
WIEHE (Convex Gonjugate) 又 称 为 Fenchel 共 斩 ,在 最 优化 理论 中 扮演 着 非常 核心 
的 角色 , 很 多 东西 都 可 以 通过 它 产生 联系 。 
mtus MA 
f(y) = mpís'y -f(z) y ER” (7.1) 
从 式 (7.1) 可 以 看 出 , RME oly — f(z) MELA. 我 们 来 看 看 m! y - fle) 是 什么 ， 
$ z'y-[f(z)-b. 有 
2" y - f(z) - b (7.2) 
f(z) =a" y + (-b) (7.3) 


由 式 (7.3) 可 以 看 出 , rz y—b 定义 了 一 个 超 平面 , 其 中 y 是 和 斜率, 而 -o WERE. nu 
Jti sg CK (7.1) EX b WEF supzer" {0}, 等 价 于 
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— inf (b) (7.4) 
zcR^ 

即 截 距 的 下 界 的 相反 数 。 因此, HSE MEA AEA y, 寻找 通过 (x, f(z)) AER 

率 为 y 的 超 平面 截 距 最 小 值 的 相反 数 。 如 图 7.1 所 示 , 给 定 斜率 y 之 后 , 截 距 f(z)-z'y 

取 到 下 界 时 , 超 平 面 zy 一 "为 函数 f(x) 的 上 境 图 (Epigraph) 的 支撑 超 平面 (Supporting 


Hyperplane) 。 


7.1 YSERA LAE 


综 上 所 述 , BW epi(f(z)) 表示 函数 f(z) 的 上 境 图 , 则 函数 f(z) AHR (—oo, 
+00) 上 的 不 同 斜 率 所 对 应 超 平 面 的 截 距 的 相反 数 , 且 这 些 超 平面 均 为 epi(f(z)) 的 支撑 
超 平面 。 

理解 了 上 面 这 句 话 之 后 ， 凸 共 斩 的 意义 就 很 清晰 了 : 以 二 维 空间 为 例 , 给 定 斜率 y. 
该 斜率 会 确定 一 个 超 平面 方向 , 将 这 个 超 平面 从 -co 处 开始 向 上 平移 , 直到 与 函数 f(x) 
的 上 境 图 相 切 , 此 时 的 超 平面 截 距 (的 相反 数 ) 即 为 f(z) HSRC PRS f(y) 的 值 。 可 以 想 
象 , 当 斜 率 y 接近 —oo 或 too 时 , 对 应 的 超 平面 截 距 的 值 会 非常 小 , 而 随 着 斜率 y 不 断 
向 0 靠近 , 对 应 超 平面 的 截 距 的 值 会 不 断 增 大 , 并 当 y = 0 时 取 到 最 大 值 。 ERROR C 
f*(y) 是 截 距 的 相反 数 , 因此 斜率 y 从 -co 到 --oo 取 值 的 过 程 中 , FEHR f(y) 的 值 
会 经 历 一 个 从 大 变 小 再 变 大 的 过 程 , 并 在 y = 0 处 取 到 最 小 值 。 从 凸 共 轿 的 定义 式 (7.1) 
可 以 看 出 , f*(y) YE y = 0 处 的 最 小 值 与 f(z) 的 最 小 值 相同 (从 几何 上 也 可 以 看 出 )。 

经 过 上 面 的 分 析 , 可 以 总 结 出 以 下 几 点 凸 共 斩 的 性 质 。 

(1) HARA f(y) 是 封闭 的 凸 函 数 。 根 据 其 定义 式 (7.1), f(y) 是 对 关于 y WH 
性 函数 m7 y — f(x) MLA, 线性 函数 是 凸 函数 ,由 凸 函数 的 性 质 一 一 对 一 组 凸 函 数 取 上 
F sup HARA THR, 因此 f*(y) 是 凸 函数 (封闭 性 同样 可 以 得 到 )。 从 另 一 个 角度 来 
看 , f*(y) 的 上 境 图 是 y 的 线性 函数 =7y — f(x) 的 上 境 图 (c 在 R^ 上 取 值 ) 的 交集 , 这 
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也 说 明 f*(y) 是 一 个 凸 函数 。 

(2) KARKA f*(y) dE y = 0 处 取 到 最 小 值 ， 且 最 小 值 与 f(z) 的 最 小 值 相 等 。 

(3) 当 f(z) 是 封闭 的 常 义 (Proper) MAHT, f(y) MICRA f** (m) = f(x). 

上 面 的 第 三 点 又 被 称 为 共 斩 定 理 (Conjugacy Theorem), 将 在 下 一 节 对 其 进行 证 明 。 
7.1.2 Gsteeese 

MHIE: WE f(z) 是 R^ 到 (—c0, +00) 上 的 映射 , + f*(y) 为 f(z) Meise 
数 , 则 f(y) HSE ER CA 

f**(x) = sup {y" æ- f*(y)}, zeR” (7.5) 
yER” 
并 有 如 下 两 个 性 质 。 

(1) f(x) 2 f* (x), Yr eR”; 

(2) 如 果 f(z) 是 封闭 常 义 凸 函数 , WA f(x) = f(x), Ve e R^. 

性 质 (1) 的 证 明 很 简单 : 对 所 有 的 和 y 有 

f'(y) = sup (z^ y — f(z)) > y'a — f(a) 
zcR^ 
于 是 
f(z) > y'z- f'(y) 
即 
f(z) > sup(y'z — f*(y)} = f" (2) 
ycR^ 

性 质 (2) 的 证 明 如 下 。 

使 用 反 证 法 : 已 知 f(z) 是 凸 函数 , 由 性 质 (1) 的 结论 f(x) > f**(z) 可 知 epi(j(z)) € 
epi(f**(a)), BI f(a) 的 上 境 图 在 f (c) 的 上 境 图 的 “< 上面”, 且 被 其 包含 。 假 设 3z, f(x) 7 
f(a), WE æ 处 f(x) > f(x), 因此 存在 点 (m, a) € epi(f**(z)) E (z,a) g epi(f(z))* 
因为 f(z) 为 凸 函 数 , 则 存在 法 向 量 为 (y, —1) 的 超 平面 严格 分 离 (x,a) 和 epi(f(z))« F 
是 存在 ce R 使 得 


i 


y'z-b«c«y'z-a, V(z,b) € epi(f(z)) 


即 f(z) 的 上 境 图 位 于 超 平面 的 上 方 , 而 点 (x,a) 位 于 超 平面 的 下 方 。 根 据 假 设 点 (x,a) € 
epi(/**(z)) A a> f**(x), 同时 有 (z, f(z)) sepi(f(z))， 代 入 上 式 得 到 


y z-f(z«c«y' z—f"(z) Vz €dom(f(zx)) 
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其 中 domf(-) 表示 函数 f(:) 的 定义 域 。 上 式 左 边 的 不 等 式 yz- f(z) < c 等 价 于 
mp {y's 一 f(z)} «e Bl f*(y) «e 于 是 有 


T 


f*(y)<c< y's- f"(z) 
变换 得 到 
f (æ) < y'a- f'(y) < sup (z' y - f(z)) 
ycR^ 
这 与 f°" (aw) 的 定义 式 (7.5) 矛盾 ,因此 原 假设 存在 “z 使 得 在 = 处 f(z) > I2)" FIR 
L, 所 以 对 于 所 有 的 = 有 
f(x) € f(z) 
结合 性 质 (1) 的 结论 f(z) > f(z) 可 以 得 出 , 4 f(z) 为 封闭 常 义 凸 函数 时 
f(x) = f* (x) 
BUSA Ase. BE FRKE Enh EF rns cda S Hh BAG BABS (La- 


grange Duality)。 


7.2 ” 拉 格 朗 日 对 偶 


对 偶 (Duality) 在 数学 上 并 没有 一 个 严格 的 定义 , 简单 来 讲 就 是 将 一 个 概念 、 定 理 或 
者 问题 转换 成 男 一 个 概念 、 定 理 或 者 问题 。 一 言 以 英之 , 对 偶 就 是 对 同一 个 事物 的 两 种 
不 同 描述 方法 。 例如 , 在 通信 和 领域 对 信号 在 时 域 和 频 域 的 两 种 描述 就 互 为 对 偶 。 又 如 , 在 
数学 上 对 封闭 凸 集合 的 两 种 描述 “空间 上 的 点 集 ” 和 “半空 间 (Halfspace) 的 交集 ”也 互 
为 对 偶 (图 7.2)。7.1 WPA AR DI, 是 把 原 函 数 与 原 函 数 的 “上 境 图 的 支撑 超 平 
的 截 距 ”进行 关联 后 得 到 的 描述 , 其 实 也 是 一 种 对 偶 。 


图 7.2 点 集 描述 与 半空 间 交集 描述 
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7.2.1 ” 拉 格 朗 日 对 偶 概 述 
一 般 地 , 最 优化 问题 具有 以 下 形式 


min f(x) 
st. g(r) &0, zcX 


(7.6) 


即 
in f(x) 7.7) 


min 

z€X,g(z)«0 
对 式 (7.7) 泛 化 , 把 其 中 的 约束 条 件 (Constraint) g(a) < 0 KSE glx) < u, 并 将 上 式 写 
成 关于 u 的 函数 
z) 7.8) 


Pe) = cene, 


其 中 we R^, 于 是 p(0) REFA (7.7) 


p(0) = f(z) 7.9) 


sex! co 
plu) 被 称 为 Perturbation Function. 注意 p(u) 是 关于 的 函数 , 而 自 变量 u 控制 的 
是 最 优化 问题 式 (7.8) 中 约束 条 件 (g(a) < u) 的 “约束 强度 ”, u 的 值 越 小 , 约束 越 强 , u 
的 值 越 大 , 约束 越 弱 。 下 面 以 二 维 空间 为 例 , 通过 几何 方式 对 函数 p(w) 进行 直观 认识 。 
u 的 取 值 范围 为 (-oo, +oo), plu) 在 其 定义 域 上 为 非 增 函数 ， 即 对 任意 ui, uo € R, 
当 u < uz 时 , 都 有 plu) > p(wu2)( 因 为 约束 条 件 越 强 ,f(z) 的 下 界 越 大 ， 如 图 7.3 所 
示 )。p(0) 即 为 原 最 优化 问题 式 (7.7) 的 解 ， 是 我 们 所 感 兴趣 的 。 那 如 何 求 p(0) 呢 ? 大 多 
数 情况 下 直接 求解 是 非常 困难 的 , 但 可 以 换 一 个 角度 对 其 进行 估算 。z(0) 是 函数 p(w) 的 
图 像 与 纵 轴 的 交点 , 可 以 用 plu) 的 上 境 图 的 支撑 超 平面 的 截 距 作为 对 p(0) 的 估计 。 还 记 
得 在 “ 凸 共 斩 ” 一 节 中 我 们 对 凸 共 斩 的 几何 解释 吗 ? 凸 共 轿 在 几何 上 是 不 同 斜率 对 应 的 
支撑 超 平面 的 截 距 的 相反 数 ( 式 (7.4))， 自 然 地 , BATS SHUN p(0) 进行 估计 。 
首先 写 出 plu) ROC ER 


p*(y) = sup(u'y-p(u), ycR' (7.10) 
ucR" 


其 中 uly — p(u) 是 超 平面 截 距 的 相反 数 , 因此 根据 式 (7.4), 把 上 式 改 写 为 


p(y)=— inf (pu) -u'y, yeR' (T.11) 


-r'(y)- inf (p(u) -u'yy, y eR (7.12) 


naža: 算法 普 后 的 理 沦 与 优化 EL 


图 7.3 Perturbation 函数 


式 (7.12) 中 右边 的 inf, {p(u) — uly} 为 通过 (u,p(u)) 点 斜率 为 y 的 超 平面 截 距 的 
FR, Bll epi(p(u)) 的 斜率 为 y 的 支撑 超 平面 的 截 距 。 现 在 令 入 = -y FENKA 
(à) = -»' (7v). 于 是 


(A) - -»'(-v) 73) 

= inf {p(u) + w' (-y)) 744) 

= inf {p(u) + A^ u} 7.15) 

Ec F A'u} 7.16) 

一 ueRr E RE ejnt el $ A'u} 7.17) 

= inf {f(@) + AT 9(@)} 7.18) 

X (7.16) 是 代入 p(w) = X (7.18) 是 因为 给 定 zx 之 后 满足 约束 条 件 g(x) < u 时 
u 的 最 小 值 为 9(z), 即 ,ainf {u}  inf(g(z)]. 


现在 来 观察 一 下 so) 的 图 像 (图 7.3), p(w) 在 其 定义 域 上 是 非 增 函数 , E04 u Æ 
WAN, p(w) 的 图 像 会 变 成 垂直 于 纵 轴 的 超 平面 ， 因 此 当 式 (7.12) 中 的 斜率 y > 0( 即 
入 < 0) 时 , p(u) 的 上 境 图 的 支撑 超 平面 的 截 距 会 趋 于 -co, 则 式 (7.18) TUSA 

"P inf {f(z) + A'g(r), A20, AER 
—oo, 其 他 


其 中 f(z) + A g(x) 通常 被 称 为 拉 格 朗 日 函数 (Lagrangian Function), 而 A 称 为 拉 格 朗 
HÆF (Lagrange Multiplier) 


(7.19) 
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L(x, A) = f(x) + AT g(x) (7.20) 
xX (7.20) 即 为 拉 格 朗 日 乘 子 法 的 表达 式 。 
还 记得 q(A) 函数 的 意义 吗 ? 是 斜率 为 -入 的 epi(p(u)) 的 支撑 超 平面 的 截 距 。 我 们 
想 求 的 是 什么 ? 是 plu) 的 函数 图 像 与 纵 轴 的 交点 p(0)。 我 们 希望 用 q(A) 来 估计 p(0). 
因为 q(A) 是 支撑 超 平面 的 截 距 , plu) 的 上 境 图 全 部 位 于 该 支撑 超 平面 的 上 方 , 所 以 下 面 
的 关系 总 是 成 立 : 


(A) < p(0) (7.21) 
即 
inf {f(@) + A'g(z)) < m oT) (7.22) 
不 等 式 (7.21) 和 式 (7.22) 被 称 为 弱 对 偶 性 (Weak Duality). 
因为 弱 对 偶 性 总 是 成 立 ,所 以 所 有 支撑 超 平 面 的 截 距 中 最 大 的 那个 就 是 对 最 优化 问 


题 ( 式 (7.6)) 的 最 优 估计 。 因 此 我 们 要 寻找 所 有 的 A 并 找到 “最 大 截 距 ”。 于 是 需要 求解 
sup inf (f(z) + A  g(z)) (7.23) 
A202€X 


x (7.23) 就 是 拉 格 朗 日 对 偶 (Lagrange Duality) 问题 。 
弱 对 偶 性 保证 了 通过 式 (7.23) 找到 的 最 优 解 是 原 最 优化 问题 ( 式 (7.6)) 的 下 界 , 那 
么 问题 来 了 , 何 时 ( 式 (7.22)) 取 等 呢 ? 
sup in£(/(o) + A'g(z)) = cert cof (@) (7.24) 
XX (7.24) 被 称 为 强 对 偶 性 (Strong Duality)。 与 总 是 成 立 的 弱 对 偶 性 不 同 ， 强 对 偶 性 在 某 
些 条 件 下 才 会 成 立 。 接 下 来 将 分 别 介绍 两 个 强 对 偶 性 成 立 的 条 件 一 一 Slater 条 件 (Slater 
Condition) 和 Karush-Kuhn-Tucker 条 件 (Karush-Kuhn-Tucker Conditions, KKT Condi- 


tions) o 
7.2.2 Salter 条 件 


7.2.1 PARR Pu SHES HT AS BY, MTSE AHP RAR Je DG 
化 问题 (3X, (7.6)) 转化 为 了 一 个 拉 格 朗 日 对 偶 问题 ( 式 (7.23)). 并 用 后 者 的 最 优 解 ( 记 为 
q(A*)) 作为 前 者 最 优 解 ( 记 为 f(z*)) 的 估计 。 但 由 于 弱 对 偶 性 总 是 成 立 , 总 是 有 g( 和 *) < 
f(z*), 而 我 们 希望 知道 的 是 在 怎样 的 情况 下 两 者 可 以 相等 ( 强 对 偶 性 成 立 )。 下 面 将 要 介 
绍 的 Slater 条 件 就 是 强 对 偶 性 成 立 的 情况 之 一 。 
正式 介绍 Slater 条 件 之 前 , 先 来 直观 地 想象 一 下 什么 样 的 情形 下 强 对 偶 性 成 立 。 观 
X plu) 函数 的 图 像 (图 7.3), 如 果 在 p(0) 处 存在 一 个 支撑 超 平面 , 那么 其 截 距 就 是 p(0)。 
显然 地 ， 当 plu) 满足 以 下 条 件 式 时 : 
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(1) plu) AAR. plu) 为 凸 函数 时 其 上 境 图 为 凸 集 ， 根 据 支 撑 超 平面 定理 (Sup- 
porting Hyperplane Theorem), p(u) 图 像 上 的 每 个 点 都 存在 plu) 上 境 图 的 支撑 超 平面 。 

(2) p(0) 存在 。 若 原 最 优化 问题 无 解 , 拉 格 朗 日 对 偶 问题 也 不 会 有 解 。 

(3) plu) 的 图 像 不 能 与 纵 轴 相 切 。 两 者 相 切 时 通过 p(0) 点 的 p(w) 函数 上 境 图 的 支 
撑 超 平 面 是 垂直 的 , 对 应 的 和 为 oo. 拉 格 朗 日 对 偶 问 题 无 法 求解 ; 而 那些 非 垂 直 的 支撑 
超 平面 (A 25 00) 的 截 距 必然 小 于 p(0)。 

强 对 偶 性 成 立 。 当 f(x) Al g(x) 均 为 凸 函数 时 , p(w) 也 为 凸 函 数 , 上 面 的 条 件 (1) 成 
立 , 此 时 原 最 优化 问题 是 一 个 凸 优化 问题 ; 而 条 件 (2) 和 (3) 成 立时 则 意味 着 存在 2 € X 
使 得 g(z) < 0( 其 中 XX 是 f(x) 的 定义 域 , 严格 来 讲 应 为 X 的 相对 内 点 集 Relint(X)), Bl 
f(z) 的 定义 域 上 存在 满足 条 件 的 z, 于 是 就 得 到 了 Salter 条 件 : 

4 XCR”, g1,g2,… ,gm 为 定义 在 X 上 的 实 值 函 数 , 如 果 存 在 ze X 使 得 g(m) < 
0,7 = 0, 1,2,… m, 我 们 称 这 些 函 数 满 足 Slater 条 件 。 

综 上 所 述 , 当 凸 优化 问题 满足 Slater 条 件 时 强 对 偶 性 成 立 , BI Slater 条 件 是 凸 优化 
问题 强 对 偶 性 成 立 的 充分 条 件 。 如 果 原 最 优化 问题 不 是 凸 优化 问题 ， 强 对 偶 性 还 会 成 立 
吗 ? 这 个 时 候 需 要 通过 KKT 条 件 来 判断 。 


7.2.3 KKT 条 件 
7.2.2 节 介 绍 的 Slater 条 件 是 凸 优化 问题 强 对 偶 性 成 立 的 充分 条 件 , 如 果 最 优化 问题 
非 凸 ， 强 对 偶 性 成 立 的 条 件 是 什么 呢 ? 现在 我 们 不 考虑 f(z) 和 g(x) 为 凸 函 数 的 假设 , 看 


看 在 强 对 偶 性 成 立 的 时 候 能 推导 出 怎样 的 必要 条 件 。 
假设 强 对 偶 性 成 立 , 则 有 


f(2*) =à") (7.25 
= inf {f(z) + A"! g(2)} (7.26 
<f(x*) +A*" g(z*) (7.27 
< f(x") (7.28 


3X (7.25) 是 由 于 强 对 偶 性 成 立 ; 3X (7.26) 是 由 于 X* 是 (A) 的 最 优 解 ; I (7.27) 则 是 因 
为 式 (7.26) 是 其 下 界 ; R (7.28) BAW g(x) <0 且 入 >0, 于 是 入 *'g(z*) < 0. 

因为 上 述 几 个 式 子 的 两 端 相等 ， 则 所 有 不 等 号 均 可 以 取 等 号 。 因 此 ,由 式 (7.26) 和 
式 (7.27) 可 知 ，z* 是 拉 格 朗 日 函数 L(z, 入 *)(L(z, 入 ) = f(a) + AT g(z)) 的 一 个 极 值 点 ， 
Jl] L(x, lambda") 在 z* 处 的 梯度 为 0 (假设 f(x) 和 g(x) 均 可 微 ), 于 是 有 


Vf(z*) - A  Vg(z*) 20 (7.29) 
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由 式 (7.27) 和 式 (7.28) 可 得 
A'' g(z*) =0 (7.30) 
再 加 上 原 最 优化 问题 的 约束 条 件 
g(z*)«0 (7.31) 
以 及 拉 格 朗 日 对 偶 问题 的 约束 条 件 
A20 (7.32) 
最 终 得 到 
Vf(z*)-A''Vg(m*) =0 Stationarity 
A' g(a") =0 Complementary Slackness (7.38) 
g(z*)«0 Primal Feasibility 
ar sp Dual Feasibility 


3X (7.29) 称 为 “平稳 性 ”(Stationarity); 3X (7.30) 称 为 “互补 松弛 性 ”(Complementary 
Slackness); 3X (7.31) 称 为 “ 原 问 题 可 行 性 ”(Primal Feasibility); 式 (7.32) 称 为 “对 偶 问 
题 可 行 性 ”(Dual Feasibility)。 上 述 4 个 式 子 合 起 来 得 到 的 式 (7.33) 就 是 强 对 偶 性 成 立 的 
必要 条 件 , 即 KKT AKTE. 注意 以 上 的 推导 过 程 中 均 未 假设 f(x) 或 g(z) 为 凸 函数 , 因此 
可 以 得 出 以 下 结论 。 

[KKT 条 件 的 必要 性 ] 对 于 任意 最 优化 问题 , 如 果 其 目标 函数 和 约束 函数 均 可 微 ， 
且 强 对 偶 性 成 立 , 则 原 问 题 和 对 偶 问题 的 一 对 最 优 解 必然 满足 KKT 条 件 ( 式 (7.33))。 

下 面 来 观察 一 下 KKT 条 件 的 必要 性 。 假设 f(x) 和 g(a) 可 微 , ERA m, A 满足 
KKT 条 件 


g(z) «0 (7.34) 
A20 (7.35) 

X g(a) = (7.36) 

V/f(2) - A Vg(z) =0 (7.37) 


其 中 式 (7.34) 保证 了 原 问 题 有 解 ; 式 (7.35) 保证 了 对 偶 问 题 有 解 ; 式 (7.37) 表明 天 是 
L(x, A) 的 一 个 极 值 点 , 我 们 希望 该 极 值 点 是 C(z, X) 的 最 小 值 , 这 就 要 求 Lr, 入) 是 关 
于 z 的 凸 函数 (从 Fenchel 共 轿 推导 出 拉 格 朗 日 对 偶 时 看 到 L(z, X) 是 关于 A 的 凸 函数 ， 
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但 未 必 是 关于 z 的 凸 函 数 ), 因此 需要 加 入 f(z) 和 g(z) 为 凸 函数 的 假设 , 于 是 有 


q(À) =L(&, X) (7.38) 
= f(z) +X" g(a) (7.39) 
= f(z) (7.40) 


式 (7.39) 代入 式 (7.36) 得 到 式 (7.40)。 这 表明 g(A) = f(z), B. z 和 入 分别 是 原 问题 和 
对 偶 问题 的 最 优 解 , 即 强 对 偶 性 成 立 。 由 此 可 以 得 到 以 下 结论 。 

[KKT 条 件 的 充分 性 ] 对 于 任意 凸 优化 问题 , 如果 其 目标 函数 和 约束 函数 均 可 微 ， 
则 任意 一 对 满足 KKT 条 件 的 解 即 为 原 问 题 和 对 偶 问 题 的 最 优 解 ， 且 强 对 偶 性 成 立 。 

由 此 可 见 , 对 于 凸 优化 问题 , KKT 条 件 是 强 对 偶 性 的 充 要 条 件 。 

思考 一 下 , 如果 目 标 函 数 或 约束 函数 不 可 微 , KKT 条 件 该 如 何 使 用 ? 对 于 不 可 微 函 
数 ， 可 以 求 其 次 梯度 (Subgradient)。 当 目标 函数 或 约束 函数 不 可 微 时 ， 可 以 使 用 次 梯度 
版 本 的 KKT 条 件 。 


7.3 Fenchel 对 偶 


有 时 我 们 面 对 的 最 优化 问题 中 的 目标 函数 f(z) 可 能 会 非常 复杂 ， 此 时 一 个 直观 的 
想法 是 把 f(z) 拆 解 成 为 两 个 或 多 个 简单 函数 的 加 和 , 如 户 (z) + 户 (z), 拆 分 之 后 依然 可 
以 使 用 对 偶 的 方法 对 其 进行 求解 ,此 时 得 到 的 对 偶 问 题 有 一 个 特殊 的 名 称 , 称 为 Fenchel 
对 偶 (Fenchel Duality). Fenchel 对 偶 建 立 在 拉 格 朗 日 对 偶 的 基础 上 ,可 以 看 作 是 一 个 处 
理 目标 函数 为 两 个 函数 之 和 的 最 优化 问题 处 理 框架 。 考 虑 下 面 的 问题 


min 户 (z) 十 户 (z)， zeXinmnXo (7.41) 


其 中 Xi, Xo C R”, fi(z) 和 fo(z) X R” 到 的 映射 , 均 为 封闭 的 常 义 凸 函数 。 式 (7.41) 
是 一 个 无 约束 条 件 的 凸 优化 问题 , 有 i(z) 和 fo(z) 通过 c 耦合 在 一 起 ,我 们 可 以 通过 添 
MARA EE FS A 


min fi(zi)- fa(z2) 
(7.42) 
st. £1 =@2, 2 €X1,@2 € X; 


X (7.42) 的 拉 格 朗 日 函数 为 


G(A)= inf. (f(E) + f(z2) + A (22 — 21)} (7.43) 


= inf iim) - A m1} + inf {f2(22) + A723) (7.44) 


2] £7 Benakra DU 


根据 式 (7.12) 有 
Lil (filer) 一 和 zj 一 及 OA) (7.45) 
inf, (f2(22) + AT 22) - —f2(73) (7.46) 
JJ 
QA) = -f109 - f2(-3) (7.47) 


于 是 得 到 的 对 偶 问 题 为 sup q(A), BB 
AER” 


sup — f{(A) — f3(-3) 
st. AER" 
其 中 ft 和 fz DMA fil fo IE. SX (7.48) 称 为 Fenchel 对 偶 问 题 。 
在 给 出 Fenchel 的 数学 定义 之 后 我 们 来 看 看 它 的 几何 意义 。 首 先 考察 -SIA TE 
“Fenchel ZEHE” 一 章 中 我 们 通过 分 析 知 道 ff (A) 是 户 (z) 上 境 图 的 斜率 为 和 的 支撑 超 平 
而 截 距 的 相反 数 ( 见 式 (7.4))。 则 — fr (X). 即 为 对 应 支撑 超 平面 的 截 距 (图 7.4)。 


(7.48) 


—f(2) 


7.4 Fenchel XH 
对 于 HOA 有 
f3(—A) = sup (-A'z — fa(z)) (7.49) 
ZEX2 


4 -A's - f(s) =o, WA 
—fo(a)=ATe +b (7.50) 
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上 式 可 知 , -ATz — 户 (z) 是 与 函数 -fo(z) 的 图 像 有 交点 且 斜 率 为 A 的 超 平面 的 
截 距 。 注 意 户 (z) 是 凸 函数 , 则 — fo(a) 为 四 函数 , 因此 式 (7.49) 是 斜率 为 入 的 — fole) F 
境 图 ”的 支撑 超 平面 的 截 距 。 
至 此 , Fenchel 对 偶 问 题 ( 式 (7.48)) 的 意义 已 经 很 明显 了 , 如 图 7.4 所 示 , Fenchel 对 
偶 问 题 的 目标 是 寻找 两 个 平行 ( 即 斜率 相同 ) 支撑 超 平面 截 距 之 差 的 最 大 值 ， 这 两 个 支 
撑 超 平面 分 别 对 应 凸 函数 A(x) RAMURA 一 f(z) 的 下 境 图 。 
对 于 Fenchel 对 偶 , 强 弱 对 偶 性 又 分 别 指 的 是 什么 呢 ? 仔细 看 图 7.4 可 以 发 现 , Fenchel 
对 偶 事实 上 是 用 两 个 平行 支撑 超 平面 的 截 距 之 差 来 估计 两 个 函数 之 和 ( 即 fale) 
(- 户 (z)))。 强 对 偶 性 何 时 成 立 ?” 从 图 7.4 中 可 以 看 出 ， 两 个 支撑 超 平面 分 别 与 fale) 和 
— fa(a) 的 两 个 切 点 的 横 坐 标 相 同 ( 即 都 在 z* 处 时 , 根据 “平行 线 等 分 线段 定理 ”可 知 ， 
此 时 截 距 之 差 q(A*) 等 于 函数 之 和 fi(m) + 户 (z)， 即 强 对 偶 性 成 立 。 
现在 的 问题 是 ， 强 对 偶 性 一 定 成 立 吗 ? 强 对 偶 性 成 立时 对 应 的 一 对 解 是 原 问题 的 最 
优 解 吗 ? 这 两 个 问题 可 以 用 Fenchel 对 偶 定 理 来 回答 。 
对 于 最 优化 问题 式 (7.41) 
(1) 如 果 XimX2 z 0, W filz) + 户 (z) 有 下 界 , 且 至 少 存在 一 个 对 偶 问 题 的 最 优 解 
满足 强 对 偶 性 。 
(2) XHA HERA, H. (z*, A*) 为 原 问题 和 对 偶 问 题 的 一 组 最 优 解 ， 当 且 仅 当 


z'c arg min (fi(z) —A*Tr}, ate arg min (fz(z) +a} (7.51) 
(1) 的 证 明 很 简单 : 因为 f(a) 和 fo(z) 都 是 常 义 函数 , 所 以 fila) 和 fo(z) 在 各 自 
的 定义 域 上 都 有 下 界 , 因此 如 果 Xi n Xo AO, 则 fi(z) + fo(w) 在 Xin Xo 上 有 下 界 。 

(2) 的 证 明 如 下 : 强 对 偶 性 成 立时 


fi(z*) + fa(z*) 2a(À*) (7.52) 
-inf(fi(zi) - A21) + inf{ fo(w2) + A* 23) (7.53) 
= inf {fi(21) + fa(2) + A*T (£2 — 21)) (7.54) 
< fií(z*) + fa(z*) - A*T (z* — a*) (7.55) 
-fi(z*) + fa(a") (7.56) 


( 式 7.52) 是 因为 强 对 偶 性 成 立 ; 式 (7.53) 因为 A* 是 qA) 的 最 优 解 ; 式 (7.55) 则 是 因为 
式 (7.54) 为 其 下 界 。 上 述 一 系列 式 子 的 两 端 相等 , 所 以 所 有 不 等 号 均 可 以 换 成 等 于 号 。 
式 (7.53) AUK (7.55) TTAN, æ" 同时 为 mnf{ 记 (za) - N71) 和 inf(f2(22) + A77 wo} 的 最 
优 解 ， 必 要 性 成 立 。 
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充分 性 的 证 明 如 下 : 
q(N)=L(z1, 25, 入) (7.57) 
-inf(fi(zi) 一 aTa} + inf(fo(z2) + Tao} (7.58) 
= fi(z*) - A*  z* + fa(z*) +AT zr (7.59) 
= fila") + fa(z") (7.60) 


x (7.59) 是 因为 z* 同时 为 inf{fi(z1) -AT z} A inf(fz(z2) + X722) 的 最 优 解 。 由 于 
弱 对 偶 性 q(A) < fi(a* + 户 (z*) 总 是 成 立 , 因此 根据 式 (7.60) WTA, AT 为 q(A) 的 最 优 
解 ， 同 时 强 对 偶 性 成 立 。 证明 完毕 。 


7.4 ” 增 广 拉 格 朗 日 乘 子 法 


Fenchel 对 偶 可 以 看 作 拉 格 朗 日 对 偶 的 一 种 扩展 ， 目 的 是 处 理 目标 函数 为 两 个 函数 
之 和 的 最 优化 问题 。 拉 格 朗 日 方法 的 另 一 种 扩展 是 增 广 拉 格 朗 日 乘 子 法 (Augmented La- 
grangian method), 它 增强 的 地 方 在 于 可 以 处 理 目标 函数 不 严格 凸 或 者 不 可 导 的 问题 。 在 
正式 介绍 增 广 拉 格 朗 日 方法 之 前 , 需要 先 了 解 两 个 基础 概念 一 一 近 端 (Proximal) 和 对 偶 
上 升 (Dual Ascent)。 


7.4.1 iiih 


当 我 们 遇 到 目标 函数 不 可 导 的 情况 时 ， 一 种 方法 是 用 次 梯度 替代 梯度 ; 另 一 种 方法 
是 在 确保 最 优 解 不 变 的 前 提 下 改造 目标 函数 使 其 变 得 可 导 , 此 种 方法 称 为 近 端 算法 。 


1. 近 端 算 子 与 Fenchel 对 偶 
近 端 算 子 (Proximal Operator) 定义 为 


pax; Fajerarg mini [io + zle = ai] 7.61) 


其 中 f(z) 是 封闭 的 常 义 凸 函数 ，c 是 一 个 大 于 0 的 标量 参数 。 从 式 (7.61) TUAH, 近 
端 算 子 事实 上 是 一 个 目标 函数 为 两 个 函数 之 和 的 最 优化 问题 。 
令 


file) =f(e), fale) = zle- alk 7.62) 


则 式 (7.61) 的 Fenchel 对 偶 为 
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sup —fi(A) - f2(-A) (T.63) 
AER” 


等 价 于 
nf, SEA) + SOCA) (7.64) 


其 中 户 (z) KIMRA f2(-A) 为 
fi(-X) = -aA + SIAN (7.65) 


因为 户 (z) 的 定义 域 为 R", 根据 “Fenchel 对 偶 ” 一 节 中 的 “Fenchel 对 偶 定理 ”可 知 , 对 
偶 问 题 式 (7.63) 的 强 对 偶 性 必然 成 立 。 因 此 可 以 通过 求 对 偶 问 题 最 优 解 的 方式 来 求解 原 
问题 式 (7.61)。 假 设 对 偶 问题 的 最 优 解 为 和 *, 我 们 希望 通过 A* 找到 原 问 题 的 最 优 解 2*， 
即 prox,(a), 所 以 需要 找到 两 者 的 关系 。 IH “Fenchel XB EHR”, 有 


z* € argmin{ fo(x) + A*' a} (7.66) 


4 fala) +AT a Xp 的 偏 导 等 于 0 


8 a 
Fe lial) +n) = (Fle - al + aTa) (7.67) 
z-a "n 
2E 4A (7.68) 
-0 (7.69) 
于 是 有 
z'—a-cA (7.70) 


现在 来 看 一 下 近 端 算 子 及 其 Fenchel 对 偶 的 几何 意义 。 近 端 算 子 式 (7.61) 看 作 两 个 
函数 之 和 (fil) + f(z)) 的 最 小 值 等 价 于 file) 与 -fo(z) 之 差 的 最 小 值 。 几何 上 相当 
于 把 凹 函数 -žel 水 平移 动 a 个 单位 之 后 再 向 上 平移 ， 直 到 与 f(z) 相 切 。 切 点 所 
在 的 位 置 便 是 z*， 即 proxc(a)。 而 对 偶 问 题 则 是 把 问题 转化 为 了 寻找 file) 和 一 户 (z) 
图 像 之 间 平 行 支撑 超 平面 截 距 之 差 的 最 大 值 。 事 实 上 , 截 距 之 差 的 最 大 值 即 为 原 问题 中 
— lle a 有 8 向 上 平移 到 达 切 点 的 距离 (图 7.5). 

可 以 看 出 ，proxe(a) 比 a 更 靠近 fi(z) 的 最 小 值 所 在 的 位 置 (A zmin)。 而 且 当 
a = Zmin BY, prox,(a) = a = zumin。 这 就 提示 我 们 近 端 算 子 可 以 用 来 寻找 f(x) 的 最 小 
值 。 这 种 方法 被 称 为 近 端 算法 (Proximal Algorithm). 
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图 7.5 近 端 算 子 的 Fenchel 对 偶 


2. 近 端 算法 
把 式 (7.61) 中 的 a 替换 成 xy), prox (a) 替换 成 sap AR c 替换 为 c()( 其 中 下 
标 (k) 表示 第 k 次 迭代 )， 就 得 到 了 近 端 算法 (Proximal Algorithm) 


1 J 
z = argmin 2) 十 z-s (era 
(k+1) gr {x ) em I calla (7.71) 
而 对 偶 近 端 算法 为 
* Ck) 2 

PE A) -zt A+ -IA 
(k-+1) arg min (rt ) = Tik) z ll Hi (7.72) 
Z(kHD = £() — CKA) 


通过 不 断 地 迭代 , 当 z( 等 于 f(z) 取 到 最 小 值 的 z* 时 终止 (图 7.6)。 每 次 迭代 时 参数 
cay 可 以 取 不 同 的 值 , 从 而 控制 该 次 欠 代 的 步 长 (图 7.7)。 


7.6 ”对 偶 近 端 算法 


126 peta: 算法 背后 的 理 沦 与 优化 T. 


Ka) 


Ta) 0 Ter) T(e2) z* x 0 


图 7.7 cy 不 同 的 取 值 对 步 长 的 影响 


3. Moreau 包 络 


近 端 算法 通常 和 Moreau 包 络 (Moreau Envelope, 又 被 称 为 Moreau-Yoshida Regular- 
ization) 联系 在 一 起 。 函 数 f (m) 的 Moreau 包 络 定义 为 


f.) =int { fa) zu - eli] (7.73) 


其 中 c 是 一 个 大 于 0 的 标量 参数 。 因 为 f(x) + ly - z|? 是 关于 y 的 凸 函数 ， 所 以 
Jelu) 是 凸 函 数 。 

Moreau 包 络 用 于 光滑 一 个 非 光 滑 的 函数 。 例 如 , Huber 函数 就 是 绝对 值 函数 的 Moreau 
包 络 


1 
149) int {el + ce -] (7-74) 
ze |z| <c 
_ (7.75) 
ll-2, lzl>e 
2 


7.4.2” 增 广 拉 格 朗 日 乘 子 法 和 对 偶 上 升 算法 

介绍 完 近 端的 内 容 之 后 现在 介绍 增 广 拉 格 朗 日 乘 子 法 。 在 这 一 节 中 把 增 广 拉 格 朗 日 
乘 子 法 和 对 偶 上 升 算法 合并 在 一 起 讲解 。 

1. 对 偶 上 升 算 法 

简单 起 见 ,考虑 约束 条 件 为 等 式 的 凸 优化 问题 


min f(z) 


(7.76) 
st. Ar=b 


TI £r &enakra A 


IEF eR”, AX R HE, f(z) 为 R^ 到 R 的 凸 函 数 。 
xX (7.76) 的 拉 格 朗 日 函数 为 


L(z, A) = f(x) + A' (Aa — b) (7.77) 
则 对 偶 函 数 为 
4(A) = inf £(z, A) = inf{ f (æ) + A'(Az — b)) (7.78) 
所 以 对 偶 问题 为 
sup q(A) (7.79) 


如 果 强 对 偶 性 成 立 ， 则 对 偶 问题 和 原 问 题 的 最 优 解 相等 。 有 时 对 偶 问 题 的 最 优 解 没 有 解 
析 解 ,需要 通过 迭代 的 方法 去 求 。 设 C(z, X) 的 一 组 解 为 (z, 和 ), 若 关于 z 的 函数 Z(z, X) 
的 最 小 解 唯一 (如 f(z) 严格 凸 ), 则 便 可 以 通过 入 求 得 
& = arg min L(z, A) (7.80) 
再 假设 q(A) 可 微 , 则 g(a) 的 梯度 
Vae(A) = ts A) = (7.81) 
于 是 就 可 以 通过 下 面 的 方式 逐步 迭代 逼近 最 优 解 
@(k+1) = arg min L(x, Aq) (7.82) 
Agen) = Aq) + ack) (Azo) — b) 
其 中 ap 是 步 长 。 可 以 看 出 整个 过 程 是 沿 着 q(X) FRE ETHZT TRA, 因此 该 算 
法 被 称 为 对 偶 上 升 (Dual Ascent) 算法 。 
2. 增 广 拉 格 朗 日 乘法 
对 偶 上 升 算法 对 目标 函数 有 “严格 凸 ” 的 假设 , 这 在 实际 遇 到 的 问题 中 往往 是 无 法 满 
足 的 。 车 该 假设 不 成 立 , WI (7.80) 便 无 法 进行 。 此 时 可 以 通过 对 对 偶 问题 进行 Proximal 
运算 来 解决 这 个 问题 。 式 (7.76) 的 对 偶 问题 为 


supq(A) (7.83) 
A 


T 


4 d(A) = -4q( 和)， 则 上 式 等 价 于 


inf d(A) (7.84) 
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对 目标 函数 使 用 近 端 算法 ( 式 (7.71) 有 


Ac) = argmin faw + m Ià- ^oli) (7.85) 
因而 式 (7.85) 对 应 的 对 偶 近 端 算法 为 
[s = argmin {ar(u) - Xu ul) —- 
Agen) = Aq) — 00) 01) 
其 中 d*(u) 是 d(A) KURRA. 现在 我 们 来 看 看 4*(w) 和 u 分 别 是 什么 。 
由 d(A) = —q(A) 可 知 
d'(u) = -q'(u) (7.87) 
根据 式 (7.13)q(A) = —px(—y) 有 
-4'(u) 2p" (-u) (7.88) 
—q"(—u) =p"*(u) (7.89) 


其 中 p*(w) 为 原 问 题 式 (7.76) 的 Perturbation 函数 p(u) MASH, HA p(w) = 
min J (es 注意 f(z) 是 凸 函 数 且 约束 条 件 Az = b Æ Affine 函数 ， 所 以 plu) 


2, Ar—b= 


HARR Hte SEE A PSP SE ae BUR 


p**(u) = p(u) 7.90 
因此 
d*(—u) = p(u) 7.91 
而 
d'(—u) =sup{—ATu - d(À)) 7.92 
=sup{ATu —d(-A)) 7.93 
=sup{A u — d(—A)} 7.94 


由 此 可 知 , d*(—u) 是 d(—A) 的 Fenchel Jt4g. 现在 把 式 (7.84) 中 的 A 都 替换 成 -入 ( 包 
FE A 和 Ao) 得 到 


= i 1 2 
—ÀA(k41) E {a 入 ) 十 dea) I-A + ^oli) (7.95) 


= 1 
=argmin {a-a) P | 和 一 ^oi] (7.96) 
A Ck) 
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因而 式 (7.96) 对 应 的 对 偶 近 端 算法 为 


m T Ck) 2 
U(k41) = argmin 4 d*(—u) + Agu + -> llul] 
u { tout g lel) (7.97) 
A01) = ACK) + Cek) UH) 
把 第 一 个 式 子 中 的 d*(—u) 替换 成 p(w), 得 到 
. CIK 
U(k41) =arg min [pto 十 Aou 十 EXHI (7.98) 
u 
=argmind min jz) 十 和 十 Su (7.99) 
s z,Áz—b-u (k) 2 2 


其 中 式 (7.98) 是 代入 plu) 的 定义 。 观 察 式 (7.99), AA u 和 z 是 多 对 一 的 关系 , 所 以 遍 
历 所 有 的 u 得 到 的 式 (7.99) 的 最 小 值 , 等 于 遍历 所 有 z 得 到 的 式 (7.100) 的 最 小 值 , B 
两 式 取 到 最 小 值 时 对 应 的 ww 和 z 满足 4z 一 b= u 


" CI 
tær) =argmin { f(e) + A (Az — b) +P Ax — o)l} (7.100) 


因此 可 以 用 式 (7.100) 代替 式 (7.97) 中 的 第 一 个 式 子 , 并 代入 Az — b = 得 到 


| = argmin {f(@) + Ajy(Az - b) + Diaz - b)i} ~~ 


Agen) = Ao) + CA) (Aa (R41) — b) 

式 (7.101) 便 是 增 广 拉 格 朗 日 算法 。 如 果 把 式 (7.101) 看 作 某 个 最 优化 问题 的 对 偶 上 升 算 
法 , 则 其 对 应 的 原 问题 为 

min f(z)*|Az — bl? 


(7.102) 
st. Ar=b 


注意 问题 式 (7.102) 与 问题 式 (7.76) 等 价 。 


7.5 REAR 


7.4 节 中 介绍 了 增 广 拉 格 朗 日 乘 子 法 , 该 方法 对 于 拉 格 朗 日 乘 子 法 的 改进 在 于 可 以 处 
理 目标 函数 不 严格 凸 或 不 可 导 的 问题 。 然而 在 现代 机 器 学 习 领域 随 着 数据 量 的 快速 增长 ， 
另 一 个 挑战 一 -海量 数据 带 来 的 计算 压力 出 现 了 。 面 对 新 的 挑战 ,最 优化 算法 也 需要 进 
行 相应 改进 。 本 节 将 介绍 增 广 拉 格 朗 日 乘 子 法 的 分 布 式 计算 改进 版 本 一 一 交替 方向 乘 子 
法 (Alternating Direction Method of Multipliers,ADMM). 但 在 此 之 前 , 首先 来 认识 一 下 传 
统 的 分 布 式 计算 框架 。 
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7.5.1 “对 偶 分 解 


在 “ 增 广 拉 格 朗 日 乘 子 法 ”中 提 到 了 对 偶 上 升 算法 。 传 统 的 分 布 式 计算 框架 直接 来 
源 于 对 偶 上 升 算法 。 假 设 面 对 的 凸 优化 问题 与 式 (7.76) 相同 ， 且 目标 函数 f 在 自 变量 zx 
的 空间 上 是 可 分 的 , 即 f 可 分 解 为 在 自 变量 z 的 若干 个 子 空间 zi 上 的 函数 fi 之 和 


N 
Dfi(zi) (7.103) 
i=1 


其 中 zi c R™ 是 z 的 子 向 量 且 之 间 没 有 交集 。 则 约束 条 件 中 的 矩阵 A 可 以 对 应 的 划分 
为 


A = [41 A2,.. An] (7.104) 
于 是 
N 
Ac — 》 Aja; (7.105) 
i=1 
那么 拉 格 朗 日 函数 就 可 以 写作 
N N 
£3) - (3259 X (324 - 8) ) (7.106) 
gs i=1 
1 
= fi(@i) +AT Aya; — AT b (7.107) 
N 
=》 Lili A) (7.108) 


代入 对 偶 上 升 算法 式 (7.82) 可 得 


N 


x = argmin Gln 
WI im m (7.109) 


Aga) = A9) +ak( A£) — b) 


其 中 z = (a1, x2,… ,ZN)。 由 于 拉 格 朗 日 函数 在 = 空间 上 同样 是 可 分 的 , 所 以 式 (7.109) 
的 第 一 个 式 子 可 以 相应 地 划分 为 N 个 最 优化 的 子 问题 独立 地 并 行 求解 。 当 第 一 个 式 子 的 
N 个 子 问 题 并 行 计算 完成 后 得 到 sr 代入 到 第 二 个 式 子 中 求解 和 (+1)。 这 种 求解 最 
优化 问题 的 分 布 式 计算 框架 称 为 对 偶 分 解 (Dual Decomposition) 算法 。 
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7.5.2 ”交替 方向 乘 子 法 概述 
当 目 标 函 数 不 严格 凸 或 不 可 导 时 我 们 可 以 使 用 增 广 拉 格 朗 日 乘 子 法 。 此 时 式 (7.108) 
变 为 增 广 拉 格 朗 日 函数 


Lo(s, A) = (Zio al aaa 


N 2 
> Airi- e| ) (7.110) 
i=1 2 


| 


由 于 式 (7.110) 中 (7.108) 那样 将 增 广 拉 格 


朗 日 函数 拆 成 若干 可 以 并 行 计算 的 子 问 题 .。 交替 方向 乘 子 法 的 提出 便 是 为 了 解决 这 一 问 
题 ， 该 算法 成 功 地 把 对 偶 分 解 算 法 的 并 行 性 与 增 广 拉 格 朗 日 乘 子 法 的 适用 性 结合 在 了 一 
起 。 为 了 方便 描述 把 目标 函数 设 为 可 分 解 成 两 个 函数 之 和 的 形式 


min f(x) +9(z) 


> Aja; 一 al 
i 2 


(7.111) 
st. Ar=z 


其 中 zeR",zeR", A XR 的 矩阵 。 式 (7.111) 问题 的 增 广 拉 格 朗 日 乘 子 法 为 


(2063) (1) = argmin (re) + 9(2) + Aly (Ae - 2) + Wy 42 - zi) 
(2) (7.112) 


Agi) = AU) + cay) (Ata) 一 Z +1) 
由 于 第 一 个 式 子 中 |As- zli 的 存在 , 函数 f 和 9 紧密 地 耦合 在 一 起 , 无 法 对 其 进行 并 
行 化 。 而 交替 方向 乘 子 法 在 此 基础 上 “强行 ”把 函数 f 和 g RS 


€i 
Zap) = argmin ( f(x) + glz) + Ao (Az — za) +S || Az — zoll 
z 2 


2(k+1) = argmin (seas) + g(z) + Ak) (AT +1) 一 z2)+ 2 Aras - z1) (7.113) 


A+) = Aw + C) (AEk) 7 20) 
可 以 看 出 在 这 样 的 设 定 下 , 和 z 是 交替 更 新 的 , 而 zx 和 z 又 代表 着 目标 函数 f +g 
的 不 同方 向 , 这 就 是 该 方法 被 称 为 “交替 方向 乘 子 法 ”的 原因 。 交替 方向 乘 子 法 是 经 典 增 
广 拉 格 朗 日 乘 子 法 的 近似 版 本 , 其 收敛 性 分 析 比 较 复 杂 , 已 经 超出 本 书 的 讨论 范围 , 有 兴 
趣 的 读者 可 以 在 本 章 后 面 的 引用 文献 中 找到 证 明 过 程 。 


7.6 h 


本 章 承 接 与 第 4 章 “ 结 构 风 险 最 小 ”。 在 第 4 章 中 利用 拉 格 朗 日 乘 子 法 从 函数 空间 
的 角度 对 结构 风险 进行 了 解释 ， 而 本 章 对 拉 格 衣 日 乘 子 法 进行 了 较为 深入 的 探讨 。 首 先 
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朗 日 对 偶 。 对 偶 在 数学 上 并 没有 一 个 严格 的 定义 ， 简 单 来 讲 对 偶 就 是 对 同一 个 事物 的 两 
种 不 同 描述 方法 。 拉 格 朗 日 对 偶 是 对 带 有 约束 条 件 的 最 优化 问题 的 另 一 种 描述 。 在 新 的 
描述 下 ， 对 偶 问 题 通过 引入 额外 的 参数 一 一 拉 格 朗 日 乘 子 ， 把 原 问题 转化 成 为 了 一 个 无 
约束 条 件 的 最 优化 问题 一 一 对 偶 问 题 。 分 析 表 明 ， 对 偶 问题 的 最 大 值 总 是 小 于 等 于 原 问 
题 的 最 小 值 ， 而 具有 当 两 个 问题 的 最 值 相等 的 时 候 拉 格 朗 日 乘 子 法 求 得 的 解 才 是 原 问题 
的 解 。 于 是 什么 时 候 能 够 取 到 等 号 是 我 们 所 关心 的 。 通 过 数学 推导 我 们 发 现 ， 当 问题 满 
AE Salter 条 件 或 KKT 条 件 时 二 者 相等 。 随 后 在 其 基础 之 上 又 提出 了 两 个 拉 格 朗 日 对 偶 
的 扩展 Fenchel 对 偶 和 增 广 拉 格 朗 日 乘 子 法 。 其 中 Fenchel 对 偶 用 于 处 理 目标 函数 为 
两 个 函数 之 和 的 最 优化 问题 ; 增 广 拉 格 朗 日 乘 子 法 则 是 为 了 处 理 目 标 函 数 不 严 格 凸 或 不 
可 导 的 最 优化 问题 。 为 了 解释 后 者 , 我 们 又 分 别 介 绍 了 近 端 Moreau 包 络 以 及 对 偶 上 升 
等 概念 。 这 些 不 同 的 概念 之 间 其 实 充 满 了 联系 , 如 近 端 算 子 可 以 看 作 是 一 个 Fenchel X18 
问题 以 及 对 拉 格 朗 日 对 偶 问题 使 用 近 端 算法 就 得 到 了 增 广 拉 格 朗 日 算法 等 。 增 广 拉 格 
朗 日 算法 再 发 展 一 步 就 是 交替 方向 乘 子 法 。 交 蔡 方 向 乘 子 法 是 一 种 适用 于 求解 分 布 式 凸 
优化 问题 的 计算 框架 , 该 算法 将 对 侦 分 解 算法 的 并 行 性 与 增 广 拉 格 朗 日 乘 子 法 的 适用 性 
结合 在 了 一 起 ,是 经 典 增 广 拉 格 朗 日 乘 子 法 的 近似 版 本 。 交 替 方 向 乘 子 法 的 收敛 性 证 明 
比较 复杂 , 限于 篇 幅 ， 本 书 没有 对 其 进行 更 加 深入 的 讨论 。 

至 此 本 书 关 于 有 监督 学 习 的 算法 理论 部 分 就 基本 告 一 段落 了 。 我 们 已 经 看 到 , 绝 大 
部 分 的 有 监督 学 习 算 法 最 终 都 转化 为 了 一 个 最 优化 问题 , 而 且 其 中 大 部 分 都 无 法 直接 求 
得 解析 解 , 需要 使 用 迭代 算法 去 逼近 。 接 下 来 的 部 分 将 主要 讨论 如 何 处 理 这 一 类 问题 。 第 
8 章 “ 随 机 梯度 下 降 法 ”主要 介绍 应 用 于 机 器 学 习 + 大 数据 场景 下 的 梯度 下 降 算 法 。 第 
9 章 “ 常 见 的 最 优化 方法 ”会 对 这 些 算法 背后 的 理论 进行 探讨 。 
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随机 述 度 下 降 法 


8.1 ”随机 梯度 下 降 法 概述 


8.1.1 ”机 器 学 习 场 景 


从 本 章 开始 进入 了 本 书 的 第 二 部 分 : 使 用 优化 算法 来 求解 机 器 学 习 问 题 。 在 第 3 章 
“结构 风险 最 小 ”中 曾 指 出 ,大 部 分 的 机 器 学 习 问 题 最 后 都 可 以 归结 为 经 验 风 险 (损失 函 
数 ) 或 结构 风险 (损失 函数 + 正则 化 ) 函数 的 优化 问题 。 下 面 使 用 数学 语言 来 正式 地 描述 
这 一 问题 (为 了 推导 过 程 的 简洁 , 下 面 只 讨论 经 验 风险 的 情况 )。 


l. 算法 模型 和 损失 函数 
在 第 4 章 “ 结 构 风 险 最 小 ”中 我 们 看 到 , 一 个 有 监督 学 习 算法 或 模型 实质 上 是 在 拟 


合 一 个 预测 函数 h( 或 者 称 为 假设 函数 ，Hyperthesis)， 其 形式 固定 但 参数 w € R^ 未 知 。 
所 有 可 能 的 n 组 成 的 函数 空间 (或 者 称 为 假设 空间 ，Hyperthesis Space) 为 


(^; w)|w € R^] 


我 们 的 目标 就 是 找到 一 组 参数 w* 使 得 做 出 预测 的 误差 最 小 。 而 误差 的 大 小 是 用 损失 函 
数 1: RI» xR” 一 了 来 衡量 的 。 设 一 对 输入 输出 为 (z 中 ,y 中 ), 其 损失 为 (h(x; w), y). 
对 于 有 监督 学 习 问 题 , 我 们 会 有 一 个 训练 集 (0, yO) 那么 我 们 就 可 以 定义 出 关于 
w 的 经 验 风险 函数 Ra : Re 一 RR 


Ralu) = EFEO; w), 9) (8.1) 
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于 是 最 终 目标 是 寻找 w 58 T, (w) 最 小 
w* = arg min Rn(w) (8.2) 
至 此 原初 的 机 器 学 习 问题 便 转化 为 一 个 目标 函数 为 Ralu) 的 优化 问题 
min Ra(w) = TE (h(z C); w),y) (8.3) 


2. 梯度 下 降 法 和 牛顿 法 所 面 对 的 挑战 

式 (8.3) 是 一 个 无 约束 条 件 的 优化 问题 , 可 以 使 用 梯度 下 降 法 或 牛顿 法 求解 。 设 目标 
函数 Rn 的 一 阶 导数 为 Ro SMEM Hessian 矩阵 为 R4， 那 么 在 梯度 下 降 法 或 牛顿 法 
的 迭代 过 程 中 每 一 步 都 需要 计算 R, 或 RY. 观察 式 (8.3) 可 以 发 现 , 若 令 损失 函数 1 对 
参数 w 的 一 阶 导数 分 别 为 L 则 计算 Ri, 就 需要 把 训练 集中 每 一 个 样本 代入 1 之 后 再 
求 其 均值 。 显然 ， 当 训练 集 的 样本 数量 极其 巨大 的 时 候 , R, 的 计算 会 非常 耗 时 。 对 于 牛 
顿 法 , 不 仅 要 计算 R, 还 要 计算 R, 而 RY 的 计算 时 间 开 销 和 空间 开销 都 非常 巨大 。 这 
样 即使 两 种 算法 分 别 拥有 线性 和 二 次 这 样 极 快 的 收敛 速率 ,由 于 在 每 一 步 的 迭代 中 消耗 
了 太 多 时 间 , 算法 的 整个 求解 过 程 往往 十 分 漫长 。 而 且 近 些 年 来 实际 问题 中 的 数据 量 越 
KRK, 经 典 的 梯度 下 降 法 和 牛顿 法 在 处 理 “ 大 数据 ”问题 时 的 实际 速度 几乎 都 是 不 可 接 
受 的 。 

既然 造成 这 个 问题 的 原因 是 训练 集 的 样本 数量 太 大 , 那么 很 自然 的 一 个 想法 就 是 : 是 
不 是 每 次 迭代 都 需要 使 用 全 部 样本 来 计算 RI, 是 否 可 以 只 选取 一 部 分 样本 , 甚至 更 极端 
一 些 , 是 否 可 以 在 每 次 迭代 中 只 使 用 一 个 样本 来 计算 Ri? 答案 是 可 以 的 , 而 且 在 大 多 数 
情况 下 这 是 处 理 实际 问题 的 首选 方法 。 


8.1.2 ”随机 梯度 下 降 法 的 定义 


考虑 每 一 步 的 迭代 中 只 使 用 一 个 样本 来 计算 经 验 函 数 的 梯度 RY,» 那么 问题 来 了 , 众 
多 的 样本 中 该 选 哪 一 个 ? 很 显然 ， 随 机 选择 是 最 佳 策略 。 因 为 一 旦 引入 随机 变量 就 可 以 
计算 其 期 望 , 后面 会 看 到 ,这 会 给 收敛 性 分 析 带 来 很 大 帮助 。 

设 每 次 迭代 中 随机 选择 样本 时 引入 的 随机 变量 为 5, 每 次 迭代 时 会 首先 实例 化 上, 即 
根据 的 概率 分 布 随机 赋予 它 一 个 值 ， 然 后 根据 实例 化 的 《 选取 对 应 的 样本 。 例 如 , 给 
WAR {(z@,yO9)} 人 中 每 一 个 样本 赋予 一 个 编号 5 ， 则 这 些 编号 便 组 成 了 实例 的 
集合 {EO}& il。 通常 训练 集中 的 每 一 个 样本 均 被 认为 是 同等 重要 的 , 则 & 服从 均匀 分 布 。 
令 


f(w) = l(h(z, w),y) (8.4) 


LMETTIMETIZTITSITAA 


则 样本 (x2, yO) 所 带 来 的 “损失 ”为 
f(w; £9) = (h(a(9, w), y?) (8.5) 


将 f(w;£9) 简 记 为 f, (w). B 
fi(w) = f(w;£9) (8.6) 


于 是 每 次 迭代 随机 选择 一 个 样本 来 计算 梯度 的 方法 (更 新 准则 ) 为 
Wri = Wk — Msi, (wk) (8.7) 


其 中 表示 第 次 迭代 ; i 是 从 {1,2,… ,n} 随机 选取 的 一 个 值 , 对 应 于 样本 (26, yi)); 
nk 表示 第 次 迭代 的 步 长 。 式 (8.7) 对 应 的 梯度 下 降 法 称 为 随机 梯度 下 降 法 (Stochastic 
Gradient Descent, SGD). 

类 似 地 , 经 典 梯度 下 降 法 的 更 新 准则 可 以 写 为 


" 
Tk 
WEk+1 = Wk — MRa (Wk) = Wk — n 2 fie) (8.8) 


对 应 于 随机 梯度 下 降 法 , 经 典 的 梯度 下 降 法 又 被 称 为 批量 梯度 下 降 法 (Batch Gradient 
Descent) 或 完全 梯度 下 降 法 (Full Gradient Descent). 

至 此 可 以 得 到 以 下 随机 梯度 下 降 法 的 算法 框架 。 

(1) RERA wo: 

(2) 实例 化 随机 变量 € 得 到 EO; 

(3) 计算 随机 梯度 fiw); 

(4) 设 定 步 长 m; 

(5) 迭代 更 新 w= w —nfi(w); 

(6) 若 满 足 终止 条 件 输出 w; 否则 重复 步骤 (2). 

随机 法 和 批量 法 事实 上 是 单 次 迭代 的 开销 与 精度 之 间 的 取舍 。 很 显然 , 随机 法 看 起 
来 会 比 批量 法 快 很 多 。 但 是 注意 , 随机 选择 一 个 样本 计算 出 来 的 下 降 方向 一 fi 与 最 速 下 
MAT R, 是 很 难 完全 重合 的 ， 有 时 甚至 是 反 向 的 (迭代 之 后 目标 函数 值 并 没有 下 降 ， 
反而 上 升 了 )。 那 么 随机 梯度 下 降 法 能 和 否 收敛 ,如 果 能 ， 是 否 真 的 比 批量 梯度 下 降 快 呢 ? 
下 面 的 收敛 性 分 析 会 给 出 答案 。 


8.1.3 ”随机 梯度 下 降 法 收敛 性 分 析 


一 些 重要 假设 和 结论 
在 分 析 开 始 之 前 , 先 把 之 后 会 用 到 的 符号 和 标记 进行 约定 。 
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(1) 为 迭代 次 数 ; 
(2) m. 为 第 次 迭代 的 步 长 ; 
(3) & 为 第 次 迭代 的 随机 变量 , & 实例 化 后 得 到 的 CO 对 应 样本 (2 中 ,y 中 ), 意味 


着 第 次 迭代 随机 选 到 的 样本 为 (2, y); 


(4) 所 为 样本 (209, 9) 带 来 的 损失 , 即 (uo) = flw; £O) = I (269, w), 9); 
(5) FoR! RAR, FORMAN Ralu) = Ù fu) 


=1 


(6) (we; &) 为 随机 梯度 (是 目标 函数 的 梯度 F' (wi) 的 无 偏 估计 )。 
在 分 析 梯 度 下 降 法 的 收敛 性 时 我 们 对 目标 函数 进行 了 一 些 假设 。 
[假设 1] 目标 函数 二 阶 可 导 且 Hessian 矩阵 有 界 


mI < F"(w) < MI (8.9) 


上 式 右边 的 不 等 号 表明 F 的 梯度 是 Lipschitz 连续 的 


F(@) < F(w)  F(u)(à — w) + iMa- w|d, Yu, eR (8.10) 


而 左边 的 不 等 号 表明 F 是 强 凸 的 ， 从 而 满足 


F(t) > F(w) + F'(w)(i — w) + E — wl, Vw, @ cR" (8.11) 


由 式 (8.10) 得 到 第 一 个 引 理 : 
[ 引 理 1] FER (8.10) 时 , 随机 梯度 下 降 法 的 每 次 迭代 中 下 面 的 不 等 式 始终 满足 


Eg, [F(wet+1)] — F(wx) & — m.F' (wx) Ee, [g(we, &)] 


gr MEs, llo (us, én) | (8.12) 

证 明 : 由 式 (8.10), 每 次 迭代 均 满 足 
F(usi) - Plws) <E (w) (usi ~ we) + 5Mlwksi — wild. — (813) 
<—mF"(w)" lwr €) + 5nkMllg(we,&)I3 (814) 


上 式 两 边 对 Er 取 期 望 便 得 到 式 (8.12). 


引 理 1 表明 , 每 一 次 迭代 中 目标 函数 下 降 值 的 期 望 是 有 上 界 的 。 因 为 我 们 希望 每 次 


和 迭代 后 F 的 值 是 下 降 的 , 所 以 上 界 越 小 越 好 。 在 目标 函数 满足 假设 且 步 长 确定 之 后 , 该 
上 界 受 到 以 下 两 个 量 的 影响 。 
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(1) AR (8.14) 不 等 式 右 边 第 一 项 可 以 看 出 , 第 一 个 量 是 FE wk 处 的 梯度 与 下 降 
方向 -g(wk, £x) 的 内 积 -下 '(w) Tg(wx,ék)。 下 降 方 向 与 梯度 的 重合 度 越 高 该 上 界 越 小 。 

(2) Ask (8.14) 不 等 式 右边 第 二 项 可 以 看 出 ， 随 机 梯度 的 二 阶 矩 olw, £l? 越 小 ， 
则 上 界 越 小 。 

车 对 收敛 性 进行 分 析 , 就 需要 对 这 两 个 影响 进行 量化 , 于 是 有 了 第 二 个 假设 : 

[假设 2] 

(1) g(we, €k) 是 F'(wy) 的 无 偏 估计 ; 

(2) g(wk, &) 关于 & 的 方差 Varg, [g(we,&)]| < V. HV 20. 

首先 关于 第 一 个 假设 , 若 E 的 设计 足够 好 , 就 可 以 使 gwk, £x) EF (we) 的 无 偏 估 
计 , WA Ee (wx, &)) = (wk), 根据 引 理 1 有 如 下 不 等 式 成 立 


Eg [F(un)] - Fwi) < -lE (w) + SRMEG gw g] (815 
对 于 第 二 个 假设 ， 由 方差 的 定义 , 有 
Vare, [sw &x)] = Ee, lows i) — Ee, laus 6) | 8.16 


结合 假设 2 可 以 得 到 如 下 不 等 式 


Eg, [llg ws, &)1I2] < V + LE" Qwx)Il2 817 


可 以 看 出 第 二 个 假设 是 通过 方差 对 E, [9 (ws, &)112] 进行 了 上 界 的 假设 。 
结合 假设 1、 假 设 2 和 引 理 1 可 以 得 到 下 面 的 结论 。 
[ 引 理 2] 满足 假设 1 和 假设 2 时 , 随机 梯度 下 降 法 中 每 次 迭代 始终 满足 


Bul] - Feo) <- (1- Fat) mlw dM (818) 
证 明 : 由 引 理 1 (5X (8.12) 和 假设 2 (X (8.17)), 有 


Eg, [F (wr+1)] 一 下 (wk) & — mF" (ws) Ee, [9( we, &x)] + g'MEs, [Ilo Cw, &)113] 
<= mE (wN + zr M Fus) IB) 
=- (r- mar) ndr (wol + FMV 
引 理 2 可 以 看 作 是 引 理 1 的 “量化 "版 本 , 引 理 1 的 不 等 式 包含 了 随机 梯度 gw £) 


的 期 望 和 二 阶 矩 这 两 个 无 法 量化 的 量 , 通过 假设 2 给 两 个 量 加 了 上 界 , 进而 在 引 理 2 中 
把 这 两 项 替换 成 了 两 个 确定 的 量 ， 从 而 可 以 进行 接 下 来 的 收敛 性 证 明 。 
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8.1.4 收敛 性 证 明 


[定理 1] 满足 假设 1 和 假设 2 时 ， 若 随机 梯度 下 降 法 的 每 次 迭代 中 的 步 长 固定 
Nk = No 且 满 足 
(8.19) 
pu 


E[F(w;) - F*] < ma 


mM n (8.20) 


+ (1 — nm) (EIF (wo) - F*] - 97 


其 中 F 表示 F 的 最 小 值 。 
[证 明 ]: 在 第 9 章 “ 常 见 的 最 优化 方法 ”中 将 会 看 到 强 凸 函数 具有 的 性 质 ( 式 (9.75)) 


| F’(ws)|3 > 2m(F (we) - F*) (8.21) 
结合 引 理 2 以 及 式 (8.19) 可 得 
Ecm [F(w41)] — F(wx) <- 人 一 gm) mi || P" (we) |I3 + güMv 
< -jmlF (w) MV 
< -mm(F(wy) - F*) + SMV 
两 边 各 减 去 P* 并 对 £O, gO, £00 取 期 望 , 得 到 
ELF (was) — F*] < (1— nom)ElF(ux) — F*] + SMV 


不 等 式 两 边 再 同时 减 去 T 得 到 


E[F(we41) - F*] 一 ney <(1— nom)E[F(w,) — F*] + gmMV " mit 
-ü- nom) (ELF (we) -F- me) 
将 k,… ,2,1 BARRA Leta 
ELF (wees) — F*] - E < (1 — mm) (EP (wo) - F"] - BEY) 


简单 变换 之 后 可 以 得 到 定理 1 的 结论 。 
根据 定理 1 ( 式 (8.20)) 可 以 得 出 下 面 两 个 结论 。 
(1) 固定 步 长 的 随机 梯度 下 降 法 不 能 够 保证 收敛 到 最 小 值 点 。 
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BE 0 < my < dz UR m< M. 所 以 0< (1 — mm) < 1, FEH k TESNE 
_ MV 


Jim EF (w) - F*] = ^2— (8.22) 
(2) 固定 步 长 的 随机 梯度 下 降 法 的 收敛 速率 是 sublinear 的 。 
根据 结论 1 
E[F(we+1) = F'| 


jm, FQ.) -FT ~! (8:23) 
对 照 第 9 章 中 数列 收敛 速率 的 定义 (XX (9.40)) 可 知 。 

以 上 两 个 结论 事实 上 都 是 随机 梯度 下 降 法 相对 于 完全 梯度 下 降 法 的 缺点 。 在 第 9 章 
“常见 的 最 优化 方法 ”中 我 们 会 看 到 , 完全 梯度 下 降 法 可 以 避免 上 述 随机 梯度 下 降 法 的 两 
个 缺点 。 对 比 完 全 梯度 下 降 法 ， 随 机 梯度 下 降 法 唯一 的 不 同 在 于 ， 虽 然 随 机 梯度 的 期 户 
Elg(we, €)] 等 于 目标 函数 的 梯度 F (w), 但 每 次 迭代 中 所 选择 的 gwr, €?) 作为 期 望 
值 的 估计 是 存在 方差 的 ， 即 Var g(x) (o(we, €)| 存在 且 不 等 于 0. 

既然 已 经 观察 到 了 随机 梯度 下 降 法 的 缺点 , 接 下 来 就 要 想 办 法 改进 SGD. 我 们 希望 
在 确保 算法 最 终 能 够 收敛 到 最 小 值 点 的 前 提 下 提高 算法 的 收敛 速率 。 常见 的 改进 办 法 主 
要 有 以 下 四 类 。 

(1) 逐步 减 小 下 降 步 长 : 在 满足 一 定 条 件 时 逐步 减 小 梯度 下 降 的 步 长 可 以 让 随机 梯度 
下 降 最 终 收 敛 到 目标 函数 的 最 小 值 点 , 但 该 方法 并 不 能 够 提升 收敛 速率 。 

(2) 逐步 增加 梯度 采样 : 通过 逐步 增加 用 于 计算 梯度 的 样本 数 , SOE ME 
逐步 逼近 完全 梯度 下 降 ， 并 最 终 收敛 到 目标 函数 的 最 小 值 点 。 可 以 看 出 该 方法 在 后 期 单 
步 的 开销 会 十 分 接近 完全 梯度 下 降 ， 以 至 于 丧失 随机 梯度 下 降 的 优势 。 
(3) 方差 缩减 (Variance Reduction): 针对 随机 梯度 下 降 法 中 随机 性 带 来 的 方差 , 通过 
修正 每 次 迭代 中 单个 样本 的 随机 梯度 的 偏差 , 可 克服 随机 梯度 下 降 法 的 两 个 缺点 。 

(4) 加 速 与 适应 (Acceleration and Adaptation): 分 别 利用 梯度 在 时 间 上 和 空间 上 的 
历史 信息 来 提升 随机 梯度 下 降 的 收敛 速率 。 

下 面 将 对 方差 缩减 和 加 速 与 适应 两 大 类 方法 进行 介绍 。 可 以 看 出 前 者 直接 从 造成 随 
机 梯度 下 降 法 两 个 缺点 的 原因 入 手 , 更 多 的 是 在 理论 上 探讨 ; 而 后 者 主要 关心 的 是 算法 
实际 的 表现 , 其 衍生 出 来 的 算法 已 经 广泛 地 应 用 于 各 种 工程 实践 之 中 。 


8.2 ”随机 梯度 下 降 法 进 阶 1 : 方差 缩减 


首先 来 看 如 果 能 够 使 用 某 种 方法 达到 了 在 迭代 过 程 中 缩减 方差 的 目的 , 随机 梯度 下 
降 能 否 克 服 两 个 缺点 。 
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8.2.1 方差 缩减 的 效果 
由 定理 1 可 得 


E[F(w;) — F*] « == + (1 — gom)*- 1 (B[F(wo) - F]- muv 


2m 


BAT EUER], In AERE HERI ROTE. WATER AUS NY V 趋 于 0， 
a RAY zoe Me MRT 0， 似 乎 既 保证 收敛 到 最 小 值 ,也 能 提升 收 全 
速率 。 Fo PRADA 然后 看 看 能 否 得 到 期 望 的 
结果 。 
首先 假设 V. 随 着 的 增 大 而 减 小 , 对 于 V 的 缩减 速率 可 以 有 以 下 两 种 假设 。 
(1) 调和 速率 
Vargo [olw £9] < poy (8.24) 
(2) 几何 速率 
Varemw[g(wkE)] < Vc, € € (0,1) (8.25) 
观察 定理 1 的 结论 式 (8.20)， 其 中 包含 (1 pm) 项 , 为 了 方便 推导 对 “ 依 几 何 
速率 减 小 的 方差 ”假设 进行 分 析 。 
[定理 2] 满足 假设 1 和 假设 2 的 同时 满足 


Vargoo [g(w., &£9)] < VC, € € (0,1) 8.26) 
若 随机 梯度 下 降 法 的 每 次 迭代 中 的 步 长 固定 mh = mo， 且 满足 
0<m< + 8.27) 
则 
E[F (wx) — F*] < wp"! 8.28) 
其 中 
w=max (mur. F(wo — Fy} 8.29) 
p=max {1-2 ç} <1 8.30) 


[证 明 ]: 与 定理 1 的 证 明 类 似 , 结合 引 理 2 与 式 (8.21). 5X (8.26) 和 式 (8.27) 可 以 


dua. Hee swessan EL 
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得 到 
Rew[P(wktl- Flw) < — ( - mM) win + iiuveo 
« - 3m P (we) + Er pon ! 
-mm(F(us) ~ F") + ipe 
不 等 式 两 边 同 时 减 去 F^ 并 对 66, EO 取 期 望 ,得 到 
ELF (ways) — F*] < (1 — mm)E[F(wi) — F*]  5ypMVC*7! (831) 


下 面 使 用 数学 归纳 法 证 明 (SK (8.28)). k = 1 时 , 显然 成 立 。 假设 时 式 (8.28) 成 立 , N 
k+1 Nha 


1 
E[F(we+1) — F*] & (1 — mom)wp*? + 50MVC 


ar (icm EE (E) 


对 比 定理 1 的 结论 可 以 看 出 , 如 果 方 差 依 几 何 速率 减 小 , 则 固定 步 长 的 随机 梯度 下 
降 算 法 具有 以 下 两 个 性 质 。 

(1) 迭代 次 数 足 够 多 时 收敛 到 极 值 点 
jim E[F (w) - F*] =0 (8.32) 


即 ELF (wi41)] = F* 
收敛 速率 是 线性 的 


一 
no 


lim ELE (wes) — E] 
ko E[F(wx) — F*] 
对 照 第 9 章 中 数列 收敛 速率 的 定义 式 (9.40) 可 以 看 出 是 线性 的 。 
现在 我 们 知道 ,只 要 能 够 在 迭代 的 过 程 中 减 小 随机 梯度 的 方差 ， 随 机 梯度 下 降 法 就 
可 以 达到 与 完全 梯度 下 降 法 相同 的 收敛 速率 , 而 且 能 够 最 终 收敛 到 目标 函数 的 最 小 值 点 。 
下 面 就 来 设计 具体 的 方差 缩减 策略 。 


=p<1 (8.33) 
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8.2.3 ”方差 缩减 的 实现 


前 面 的 分 析 表 明 , 方差 之 所 以 出 现 是 因为 每 次 迭代 时 使 用 随机 梯度 (wn, £09) 作为 
目标 函数 真实 梯度 TU (wi) 的 估计 。 如 果 能 够 对 偏差 进行 修正 , 那么 很 显然 就 可 以 达到 减 
小 方差 的 目的 。 再 来 观察 一 下 目标 函数 一 一 经 验 风险 函数 的 梯度 


A DA 


若 把 fi (wi) 看 作 是 单个 样本 的 贡献 , 那么 T, (we) 就 是 全 部 样本 贡献 的 合集 , 而 随机 梯 
度 下 降 法 就 是 用 单个 样本 的 贡献 来 代表 所 有 样本 


g(wx) = fi(wk) (8.34) 


WREX g(wk) 进行 修正 , 很 显然 需要 利用 R (wi) 的 信息 。 下 面 介绍 的 两 个 算法 
分 别 从 两 个 角度 对 gwe) 进行 了 修正 , 一 个 从 时 间 上 利用 Ri, (we) 的 历史 信息 , 另 一 个 
从 空间 上 使 用 其 他 样本 的 合集 信息 X fiw) 


1. SVRG 算法 


第 一 个 方法 称 为 随机 方差 减 小 梯度 下 降 法 (Stochastic Variance Reduced Gradient, 
SVRG)。 该 方法 利用 Ri, (wi) 的 历史 信息 对 每 次 迭代 中 的 随机 梯度 g(wi) 进行 修正 。 其 
过 程 简单 来 说 , 就 是 在 正常 的 随机 梯度 下 降 法 执行 过 程 中 每 阳 一 段 时 间 计 算 一 次 完全 梯 
BE RI» 然后 使 用 Rp 对 接 下 来 的 迭代 进行 修正 。 

首先 对 标识 符号 作 如 下 约定 。 

(1) 为 计算 完全 梯度 的 次 数 , 设 此 时 参数 为 w:， 则 完全 梯度 为 RI (wk)。 

(2) m 为 两 次 计算 完全 梯度 之 间 的 迭代 数 , 即 设 每 间隔 t 个 迭代 计算 一 次 完全 梯度 。 

(3) j € {1,2,… ,m} 表示 t 个 迭代 中 的 第 j 次 迭代 。 

(4) ij € {1,2,… ,n} 表示 第 j 次 迭代 中 随机 选 到 了 第 i; 个 样本 。 

(5) 2; 表示 第 j 次 迭代 中 的 随机 梯度 。 

(6) iv; 表示 第 j 次 迭代 时 的 参数 。 

在 SVRG 算法 中 ,随机 梯度 


8 = Fi, 3) — [F w) = Raw] (8.35) 


fi, (Č) 5 Ry (wi) 存在 偏差 , 而 — [fr (we) — Ra (wi) 是 对 fi (ws) 的 修正 。 其 中 
Fi, (wy) 是 在 计算 完全 梯度 时 样本 i 的 贡献 ,而 (7, (we) -R (wx) 则 是 使 用 7 (we) 作 
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为 TO, (we) 的 近似 时 产生 的 偏差 。 利 用 这 个 偏差 来 近似 fi (05) 与 T (we) 之 间 的 偏差 ， 
进而 对 fi (ws) 进行 修正 ,从 而 达到 了 减 小 方差 的 目的 。 

SVRG 算法 的 具体 实现 是 一 个 双重 循环 嵌 套 ， 外 层 循 环 控制 完全 梯度 的 计算 ， 内 层 
循环 进行 随机 梯度 下 降 迭 代 。 算法 框架 如 下 C 符号 表示 该 变量 存在 于 内 层 循环 )。 
(1) 初始 化 参数 为 wo, FRA n ARIERKEA te 
(2) 完全 梯度 的 次 数 k = k 1. 
(3) 计算 完全 梯度 Ri, (wk) 
(4) 初始 化 内 层 随 机 梯度 下 降 起 始点 to = wko 
(5) m 次 随机 梯度 下 降 迭 代 , 和 迭代 次 数 j = 1,2,- , te 
(6) 随机 选择 i; € {1,2,… ,n}。 
(7) & à; = fi, (3) — (Fi, (we) — Rz wi) 
(8) 进行 梯度 下 降 Ùj = d; 一 9;。 
(9) 2j « t, Wj =7+1 并 返回 步骤 (5). 

(10) 更 新 wk+1，3 种 策略 : 

® Wey = Unas 

Q wry = i 5 W413 

j=l 

@ 随机 选择 j € {1,2,--- th, 令 wey wa 

(11) 若 满足 终止 条 件 , 输出 wis, 结束 ; 否则 返回 步骤 (2)。 

数学 上 可 以 证 明 ,， 当 w 的 更 新 策略 选择 @ 或 @ 时 ，SVRG 算法 的 收敛 速率 是 线 
性 的 。 在 实践 中 , SVRG 的 效率 比 随机 梯度 下 降 法 往往 好 很 多 。 但 SVRG 除了 步 长 7 外 
还 要 多 设置 一 个 参数 t, 而 且 目 标 函 数 的 条 件数 m 和 M 通常 不 可 知 , 因此 需要 通过 多 次 
实验 才能 获得 较 优 的 7 t 的 组 合 。 


2. SAGA 算法 


第 二 种 算法 称 为 增强 随机 平均 梯度 下 降 法 (Stochastic Average Gradient Ameliorate, 
SAGA). SAGA 的 思想 与 SVRG 类 似 , 都 是 通过 完全 梯度 RU, (wi) 对 随机 梯度 进行 修正 ， 
以 减 小 方差 。 两 者 的 不 同 点 在 于 SAGA 并 不 直接 计算 R (w) 而 是 通过 所 有 样本 最 近 
一 次 计算 得 到 的 随机 梯度 来 估计 R, (wx)。 

标识 符号 的 约定 如 下 。 

(1) k 为 迭代 次 数 ， 当 前 时 刻 参数 为 wo 

(2) j € {1,2,… ,n) 表示 第 次 迭代 中 随机 选 到 了 第 j 个 样本 。 


Jl Rok 随机 梯度 下 降 法 E 


(3) wa 表示 最 后 一 次 选中 样本 i 时 的 参数 , 其 中 ie {1,2,--- n). 

(4) (wy) 表示 最 后 一 次 选中 样本 i 时 由 样本 i 计算 得 到 的 随机 梯度 。 
(5) gk 表示 第 次 迭代 中 的 随机 梯度 。 

SAGA 每 次 迭代 的 随机 梯度 


gr = ff(un) = [fw = o) (8.36) 
i=1 


Job E D (wig) 是 对 Ry (we) 的 估计 [fy (wn) — = 35 Aon) 可 以 看 作 是 样本 7 上 
一 次 计算 得 到 的 随机 梯度 与 完全 梯度 的 偏差 。SAGA 算法 使 用 这 一 偏差 对 当前 由 样本 7 
计算 得 到 的 随机 梯度 filwr) 进行 修正 。 

可 以 看 出 , 相 比 于 SVRG, SAGA 需要 额外 的 空间 开销 来 存储 ff (wa) (IFA hE SEE 
fit wa)。 而 且 在 迭代 开始 之 前 , SAGA 需要 初始 化 计算 所 有 的 Fi(wm)。 算 法 框架 如 下 。 
(1) 初始 化 参数 为 wo HEA no 
(2) 初始 化 Pi(ui)， 逐次 计算 每 个 样本 i 的 随机 梯度 。 

(3) 初始 化 大 = 1, 开始 梯度 下 降 的 迭代 过 程 。 

(4) 随机 选择 j € {1,2,… ,n}。 

(5) 计算 fi (wk). 

© 4 a. = flw) - [fig — 7; È Kw) 

(7) 储存 fj (wy) BIS iwi) = filwr). 

(8) 进行 梯度 下 降 wii = wi — Ngke 

(9) 车 满足 终止 条 件 , 输出 wk+1， 结束 ; 否则 二 上 十 1 并 返回 步骤 (4). 

数学 上 可 以 证 明 ， 当 步 长 的 选择 满足 一 定 条 件 时 ，SAGA 的 收敛 速率 是 线性 的 。 除 
去 最 开始 的 初始 化 过 程 , SAGA. 与 普通 的 随机 梯度 下 降 法 在 单 次 迭代 中 的 时 间 开销 是 一 
样 的 。 与 SVRG 相 比 ，SAGA 少 设置 一 个 参数 (内 层 循环 的 次 数 t) 但 多 了 空间 上 的 开 
销 (n 个 梯度 向 量 (wj))。 如 果 训 练 集 数 据 量 特别 巨大 ,实际 应 用 过 程 中 可 能 会 遇 到 
问题 。 


8.3 BENE SRAM I: 加 速 与 适应 


方差 缩减 的 思路 是 修正 每 一 次 迭代 中 由 随机 梯度 引入 的 偏差 来 提升 随机 梯度 下 降 的 
收敛 速率 。 如果 把 算法 迭代 的 过 程 比喻 为 从 起 点 (参数 初始 值 ) 到 终点 (目标 函数 最 小 值 
点 ) 的 跑步 过 程 , 方差 缩减 的 思路 是 让 每 次 迈步 的 时 候 都 尽量 朝 着 终点 。 加速 (Accelerate) 
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与 适应 (Adaptive) 则 是 从 另外 不 同 的 角度 来 改进 算法 从 而 更 快 地 到 达 终点 。 加 速 的 主要 
思路 是 把 迭代 过 程 看 作 一 个 物理 系统 , 利用 “惯性 ”使 每 一 步 迈 得 更 大 更 准 ; 而 适应 的 大 
体 想 法 是 : 虽然 在 高 维 空间 中 我 们 不 知道 终点 在 哪里 , 但 根据 已 经 跑 过 的 路 程 可 以 推测 
出 在 某 些 维度 上 我 们 已 经 到 达 了 终点 所 处 的 位 置 , 因此 只 需要 在 其 他 维度 上 继续 奔跑 。 


8.3.1 HÈ 


1. Momentum 算 法 


Momentum 的 中 文 意思 是 动量 , 该 算法 把 迭代 下 降 的 过 程 视 为 一 个 物理 系统 。 在 这 
个 物理 系统 中 , 在 目标 函数 构成 的 曲面 上 一 个 单位 质量 的 小 滑 块 从 一 个 随机 的 起 始点 向 
目标 函数 的 最 小 值 点 滑动 。 根 据 牛 顿 运动 定律 (Newton' s laws of motion)， 小 滑 块 受到 
两 个 力 的 影响 

(1) 重力 (Gravity) 沿 斜面 的 分 量 ， 其 方向 与 目标 函数 的 梯度 FP'(w) 方向 相反 ,大 小 
与 F'(w) 成 正比 ,比例 系数 为 no 

(2) 斜面 的 灰 性 阻尼 力 (Viscous Damping Force), 其 方向 与 小 滑 块 运动 方向 相反 , 大 
小 与 运动 速度 v 成 正比 ,比例 系数 为 1 - a。 

小 滑 块 为 单位 质量 m = 1, 其 动量 

p=mv=v (8.37) 


FERVENT TA A AR, TTA) t = 1 内 小 滑 块 受到 来 自 于 重力 和 
狐 性 阻尼 力 的 冲 量 分 别 为 


Te=—nF(w)t= —gF'(w) 8.38) 


Iv — (1 - a)vt — (1 — a)v 8.39) 

于 是 由 动量 定理 , 在 一 次 迭代 中 小 滑 块 动量 的 更 新 遵守 
v—v —gF'(w) - (1 - a)v 8.40) 

=av — gF'(w) 841) 

同样 根据 牛顿 运动 定律 , 一 次 迭代 中 小 滑 块 位 置 的 更 新 遵守 


w=w+vt 8.42) 


=w+v 8.43) 


Jl 第 8 章 随机 梯度 下 降 法 


式 (8.41) 和 式 (8.43) 结合 在 一 起 是 Momentum 算法 。 把 式 (8.41) 中 的 F'(w) 替换 为 
mini-batch 的 随机 梯度 3 x f!(w) 便 得 到 随机 梯度 下 降 的 Momentum 算法 
Th i-i 


v cav qn > flew) - 


w=w+v 


由 式 (8.44) 可 知 , 速度 v 事实 上 是 参数 w E—KERP RIDGE av 是 上 一 次 迭代 中 
参数 改变 量 保留 下 来 的 部 分 ; 重力 系数 m 则 是 本 次 迭代 中 根据 梯度 得 到 的 新 增 参数 改变 
量 的 步 长 。 Momentum 算法 框架 如 下 。 
Momentum 算 法 框架 
MHA: 重力 系数 n STERHUE 71 33€ a, 初始 参数 值 w, 初始 速度 v 
BS: 当 终止 条 件 不 满足 时 
(1) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 随机 梯度 9， È $ flw) 


(2) 更 新 速度 v — av 一 ng 
(3) 更 新 参数 w= 二 w+v 


在 实践 中 Momentum 算法 往往 能 比 SGD 算法 更 快速 地 完成 优化 任务 , 主要 有 两 个 
原因 : 首先 Momentum 在 欠 代 中 更 新 参数 时 不 止 使 用 了 当前 的 梯度 信息 ,同时 利用 了 小 
滑 块 的 “惯性 ”信息 , 达到 了 加 速 的 效果 ; 第 二 “惯性 ”信息 事实 上 是 过 往 的 梯度 以 指数 
衰减 的 方式 累积 下 来 的 历史 信息 ，Momentum 利用 该 信息 对 单 次 迭代 中 随机 梯度 的 偏差 
进行 了 修正 , 起 到 了 类 似 于 SVRG 算法 的 效果 。 


2. Nesterov Momentum 算 法 
Nesterov Momentum 算法 是 Momentum 算法 的 改进 版 本 , 其 迭代 更 新 准则 为 


1 
v=av—n— y fi(w+av) 
ds » (8.45) 


w=w+v 
XJ Momentum, 唯一 的 变化 在 于 Nesterov Momentum 计算 的 不 是 当前 位 置 的 梯度 
I T fiw) WOE “PRATT al^ NR ELSE BISBEE BE 7] XC BT 28] BIS A, 
i=l 
置 ” 的 梯度 。 Nesterov Momentum 通常 被 解释 为 “智能 小 滑 块 ”, 意思 是 小 滑 块 在 每 个 时 刻 
会 预 判 自己 下 一 个 时 刻 将 会 到 达 的 位 置 , 然后 使 用 预计 位 置 的 梯度 作为 当前 Momentum 
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更 新 的 一 个 修正 (Correction Factor)。 小 滑 块 智能 地 对 运动 做 出 了 修改 :既然 已 经 知道 
下 一 个 时 刻 会 向 某 个 方向 滑动 , 不 如 现在 就 向 那 边 滑 过 去 ”。Nesterov Momentum 算法 框 
AU. 


Nesterov Momentum 算 法 框架 
HA: 重力 系数 n 黏 性 阻尼 力 系 数 a, 初始 参数 值 w, 初始 速度 v 
BR: 当 终止 条 件 不 满足 时 
(1) 计算 预计 位 置 do 一 w 十 av 
(2) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g — E Ñ (a) 
(3) 更 新 速度 v — av — ng 
(4) 更 新 参数 w — wv 


整体 上 看 , Nesterov Momentum 算法 在 实际 应 用 中 的 效果 通常 比 Momentum 算法 好 


| 
ik 


8.3.2 ”适应 


在 机 器 学 习 场 景 中 我 们 面 对 的 数据 往往 具有 很 高 的 维度 ， 而 目标 函数 可 能 只 在 某 些 
维度 上 变化 剧烈 ,在 其 他 维度 并 不 敏感 。 因 此 在 寻找 最 优 参 数值 时 不 同 参数 分 量 的 学 习 
速率 应 该 是 不 同 的 。Momentum 在 某 种 程度 上 能 够 起 到 这 样 的 效果 , 但 它 引 入 了 一 个 额 
外 的 超 参 数 造成 了 算法 调试 难度 的 提升 。 针 对 这 一 问题 适应 算法 被 设计 了 出 来 。 


1. AdaGrad i 


AdaGrad 算法 的 全 称 是 Adaptive Subgradient, 其 思想 是 , 如 果 在 某 些 维度 上 目标 函 
数 的 梯度 一 直 比 较 小 , 则 在 这 些 维度 方向 上 下 降 的 步伐 应 该 大 一 些 从 而 加 快 收敛 ; 如 果 
在 某 些 维度 上 目标 函数 的 梯度 一 直 比较 大 , 那么 在 这 些 维度 方向 上 下 降 的 步伐 应 当 小 一 
些 以 免 造成 不 稳定 。 相 比 于 SGD 在 每 个 维度 方向 上 设置 相同 的 梯度 下 降 步 长 , AdaGrad 
不 断 地 累积 每 次 迭代 中 各 个 维度 上 梯度 的 平方 , 之 后 根据 累积 得 到 的 历史 信息 对 不 同 维 
度 方 向 上 的 步 长 进行 放 缩 。AdaGrad 算法 框架 如 下 。 

AdaGrad 算法 的 缺点 也 很 明显 : 算法 从 开始 训练 便 不 断 地 累积 梯度 的 平方 , 这 有 可 
能 造成 在 到 达 极 小 值 点 之 前 所 有 维度 上 的 步 长 都 变 得 很 小 ; 在 某 些 维度 上 的 下 降 过 程 可 
能 会 经 历 陡峭 和 平缓 交替 出 现 的 情况 , 但 由 于 在 陡峭 部 分 梯度 的 累积 , 算法 在 平缓 部 分 
将 依然 会 把 步 长 缩小 。 
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AdaGrad 算 法 框架 

输入 : 全 局 步 长 n 初始 参数 值 w, 极 小 常量 5( 确 保 分 母 不 为 0) 

初始 : 平方 梯度 累积 向 量 + = 0 

重复 : 当 终 止 条 件 不 满足 时 
(1) 随机 采集 m 个 样本 组 成 mini-bateh 并 计算 随机 梯度 g — E Š flw) 
(2) 累积 梯度 信息 ror+gOg 
(3) 根据 梯度 累积 信息 计算 参数 在 不 同 维度 上 的 更 新 量 Aw — 一 
(4) 更 新 参数 w= w+ Aw 


Hr 
$4 yr99 


2. RMSProp 算 法 


RMSProp 是 AdaGrad 的 改进 算法 ,不同 于 AdaGrad 对 过 往 所 有 平方 梯度 进行 累 
$R, RMSProp 通过 添加 指数 衰减 只 累积 “近期 ”的 梯度 信息 。AdaGrad 比较 适合 凸 函 数 
优化 , 而 当 目标 函数 非 凸 时 , 算法 梯度 下 降 的 轨迹 所 经 历 的 结构 会 复杂 得 多 , 早期 的 梯度 
信息 对 当前 迭代 并 没有 太 多 指导 意义 , 此 时 RMSProp 的 表现 往往 更 好 。RMSProp 算法 
框架 如 下 。 


RMSProp 算 法 框架 
输入 : 全 局 步 长 m 指数 衰减 率 p. 初始 参数 值 w， 极 小 常量 5( 确 保 分 母 不 为 0) 
初始 : 平方 梯度 累积 向 量 + = 0 
重复 : 当 终止 条 件 不 满足 时 
(1) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 随机 梯度 g — + ¥ fu) 
(2) 累积 梯度 信息 r — pr+(1—-p)gOg 
信息 ; di — 
(3) RERRUER UE BH AMET FIERE EINER Aw 0g 
(4) 更 新 参数 w = w+ Aw 


可 以 看 出 , 算法 维持 了 各 个 维度 方向 上 平方 梯度 的 指数 滑动 平均 值 , 然后 用 这 些 平均 
值 的 平方 根 对 步 长 进行 放 缩 。 这 就 是 RMSProp 算法 名 称 的 由 来 —— Root Mean Square 
Propagation。 深 度 学 习 中 面 对 的 目标 函数 一 般 都 是 非 凸 的 , RMSProp 算法 在 深度 学 习 中 
应 用 的 比较 广泛 , 绝 大 多 数 的 深度 学 习 框架 都 实现 了 该 算法 。 


3. AdaDelta 算 法 


AdaDelta 是 与 RMSProp 相同 时 间 独 立 发 展 出 来 的 一 个 算法 ， 从 算法 实现 上 它 可 以 
看 作为 RMSProp 的 一 个 变种 。AdaDelta 同样 通过 指数 衰减 来 累积 “近期 ”的 梯度 信息 ， 
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但 AdaDelta 从 量 纲 的 角度 对 参数 更 新 做 了 一 些 修改 。AdaDelta 认为 SGD 的 参数 更 新 
中 , w 与 Aw 的 量 纲 不 匹配 。 假设 w 有 量 纲 , 则 SGD 中 Aw 的 量 纲 是 w 量 纲 的 倒数 
1 


ivana e 


Ow unit of w (8:46) 
同样 地 ，AdaGrad 和 RMSProp 的 Aw RAHA 
BF 
Aw x —— 9 gx Ow x1 (8.47) 
"MES 


因此 为 了 保持 量 纲 的 一 致 性 ，AdaGrad 设置 了 另外 一 个 向 量 s 以 指数 衰减 的 方式 累积 
Aw 的 信息 , 并 将 其 平方 之 后 乘 以 梯度 g 得 到 新 的 Aw 


s—ps + (1— p)^w? (8.48) 
vo+s 

Aw-- 8.49 

“VS dime 


x unit of w (8.50) 
LAM 
(s) 
AdaDelta 算法 框架 如 下 。 
AdaDelta 算 法 框架 
输入 : 指数 衰减 率 p. 初始 参数 值 w 极 小 常量 5( 确 保 分 母 不 为 0) 
初始 : 平方 梯度 累积 向 量 + = 0, 平方 参数 变化 量 累积 向 量 s = 0 
重复 : 当 终止 条 件 不 满足 时 
(1) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g — 二 flw) 
(2) 累积 梯度 信息 + 一 pr 十 (1 一 pjg©O g 
(3) 根据 梯度 累积 信息 计算 参数 在 不 同 维度 上 的 更 新 量 Aw 二 一 
(4) 累积 参数 变化 量 信 息 s ps + (1 一 p)Aw? 
(5) 更 新 参数 w= 二 w+ ^w 


V6 十 了 


可 以 看 出 ，AdaDelta 算法 不 需要 设置 全 局 步 长 , 这 是 该 算法 的 一 大 优势 。 在 实际 应 
用 中 , AdaDelta 算法 与 RMSProp 算法 表现 也 比较 接近 。 
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8.3.3 加速 x 适应 
1. Adam 算 法 


既然 加 速 和 适应 都 能 带 来 更 好 的 效果 , 为 何不 把 二 者 结合 在 一 起 呢 ? Adam 算法 的 
名 称 来 自 于 Adaptive Moments， 其 思路 可 以 看 作 “Momentum+RMSProp”。 我 们 再 来 重 
新 审视 一 下 这 两 个 算法 。Momentum 中 对 “动量 ”的 更 新 式 (8.41) 是 对 随机 梯度 9 的 估 
计 ， 如 果 限 制 +n = 1， 则 式 (8.41) 就 变 成 了 应 用 指数 滑动 平均 对 随机 梯度 g 一 阶 矩 
E(g) 的 估计 , id 9 的 一 阶 矩 为 s 并 设 p € (0,1), 有 


s=mst+(l—pi)g (8.51) 
而 RMSProp 中 累积 的 平方 梯度 事实 上 是 应 用 指数 滑动 平均 对 9 ME Elg?) 的 估计 
r=pr+(l-pm)gOg (8.52) 


通常 会 设 s 和 r 的 初始 值 都 为 0, 这 样 的 设置 会 造成 上 面 一 、 二 阶 和 矩 的 估计 有 偏 。 以 式 
(8.51) ABI, WE k UGRTUPIN s 为 sk 


B(s) =E[p1sr-1 + (1 -poDgh] 8.53) 
k 
-E|a - e) Y eg] 8.54) 
i=1 
k 2 
-(1- 9) > pf E(g) 8.55) 
i=1 
k " 
=(1- m) pf (E(g,) + G) 8.56) 
i=1 
k : k : 
= [E(g,)(1 — pr) > 67] + (a - p) Die] 8.57) 
k 
-E(gy) - pi) c 1 0) Dot G 8.58) 
-E(g,)(1 — pt) +¢ (8.59) 


其 中 G = E(g,) — Elg) ER i 次 迭代 中 g 的 一 阶 矩 与 第 k 次 迭代 的 差 , ¢ = (1 一 
pi) RT k 次 迭代 之 后 的 累积 量 。 如 果 训 练 过 程 中 训练 集 不 发 生变 化 , 则 E(g;) 是 
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平稳 的 , BI c = G = 0。 此 时 式 (8.51) 对 g 一 阶 矩 的 估计 是 有 偏 的 ，s 除 以 (1 — pf) 便 可 
得 到 无 偏 估计 3 


= 
(1 — pj) 


同样 地 , BENLER KZE E(g?) 的 无 偏 估计 e A 


ô= 


(8.60) 


$ = r 
| (1= p§) 

利用 随机 梯度 一 阶 矩 加 速 ， 同 时 利用 随机 梯度 二 阶 矩 适应 地 调整 各 个 维度 上 的 下 降 步 长 ， 
我 们 就 得 到 了 Adam 算法 , 其 框架 如 下 。 

Adam 算 法 框架 

MIA: PK n, 指数 衰减 率 pl 和 po, 初始 参数 值 w, 极 小 常量 5( 确 保 分 母 不 为 0) 

初始 : 随机 梯度 一 阶 矩 估计 s = 0， 随 机 梯度 二 阶 矩 估计 r = 0, ERARA k= 0 

BS: 当 终止 条 件 不 满足 时 
(1) 迭代 次 数 天 一 大 十 1 
(2) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g — = p>! fiw) 
(3) 更 新 有 偏 一 阶 矩 估计 s — pis +(1—pi)g 
(4) 更 新 有 偏 二 阶 矩 估计 r par + (1—p2)g Og 


td NEN LÀ 
(5) 修正 有 偏 一 阶 短信 计 3 = cu 


(6) 修正 有 偏 二 阶 矩 估计 个 = — —— 

(1 — 3) 

(7) 计算 参数 在 不 同 维度 上 的 更 新 量 Aw — -一 一 3 
VF+6 

(8) 更 新 参数 w = w + Aw 


(8.61) 


Adam 算法 是 一 个 相对 稳定 且 快速 的 算法 , 已 经 广泛 应 用 于 深度 网 络 的 训练 。 
2. AdaMax 算 法 


在 Adam 中 参数 w 每 个 分 量 上 的 步 长 是 根据 该 维度 上 梯度 的 1 范 数 的 累积 量 进行 
放 缩 的 。 我 们 完全 可 以 通过 把 lp 范 数 泛 化 成 |, 范 数 得 到 不 同 的 Adam 算法 的 变种 。 其 
中 loo 范 数 对 应 的 Adam 的 变种 算法 简单 且 稳定 。 我们 知道 向 量 a 的 Lus 范 数 等 于 a 各 
分 量 绝对 值 的 最 大 值 


llallw = max(|a;|) 
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所 以 该 算法 被 称 为 AdaMax。 对 于 1, WH B k 次 迭代 时 随机 梯度 的 累积 为 


Tk =pTk-1 + (1— pg") 8.62) 
k 
=(1- pb) Y 08% g? 8.63) 
i=1 
其 中 gr 表示 g 的 逐 元 素 lp WR, ob 表示 对 应 的 指数 衰减 率 。 当 p 一 oo 时 
k ï 
Jim (rx)? = lim ((1 — p8) E agn 8.64) 
= lim (1 — ph)? (Qoae 3 2H 8.65) 
2^ (ki) p)? 
EE —i) iP» 
= lim. (x (p> "g) ) 8.66 
= mex (9j ^9) 8.67 


根据 r 的 递归 定义 可 知 
r= max Cu 19.) 8.68 


所 以 有 


Tk = max(p2aTk_1, gk) 8.69 


因为 lo 下 的 r 累积 的 是 随机 梯度 g 各 分 量 绝对 值 的 信息 , 所 以 可 以 直接 用 ” 替代 Adam 
中 的 VF +6, 且 不 需要 对 r 进行 修正 。AdaMax 算法 框架 如 下 。 


AdaMax 算 法 框架 


MA: 步 长 n, 指数 衰减 率 p 和 po, 初始 参数 值 w 
初始 : 随机 梯度 一 阶 矩 估计 s = 0, 随机 梯度 lo 范 数 的 累积 向 量 u= 0, ERKA k= 0 
重复 : 当 终止 条 件 不 满足 时 
(1) EAR k — k+1 
(2) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g 一 
(3) 更 新 有 偏 一 阶 矩 估计 s 一 pis 十 (1 一 pi)g 
(4) 更 新 lo 范 数 的 累积 向 量 + 二 max(p27, g) 
(5) 修正 有 偏 一 阶 矩 估计 3 = TH 
(6) 计算 参数 在 不 同 维度 上 的 更 新 量 Aw — -13 
(7) 更 新 参数 w = w Aw 


PERO 


ab, 
m 
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p 界 于 2 和 co 之 间 时 Adam 的 变种 算法 不 稳定 , 一 般 不 使 用 这 些 算法 。 
3. Nadam 算 法 


我 们 已 经 看 到 Adam 算法 是 RMSProp 算法 与 Momentum 算法 的 结合 ， 既 然 Nes- 
terov Momentum 在 整体 上 的 表现 力 胜 过 Momentum， 为 何不 将 RMSProp 和 Nesterov 
Momentum 结合 起 来 呢 ? 两 者 结合 之 后 得 到 的 是 Nesterov Momentum 版 本 的 Adam 算 
法 , 称 为 Nadam(Nesterov-accelerated Adaptive Moment Estimation). 下 面 来 看 看 如 何 将 
Adam 中 的 Momentum 替换 成 Nesterov Momentum. 

首先 观察 Momentum 和 Nesterov Momentum 的 关系 。 第 次 迭代 Momentum 中 参 
数 的 更 新 为 


9. ==> fin) 
4-1 


Sk = QSk-1 + 7)gy. (8770) 


Wk+1 = Wk — (A8K-1 + 19K) 
其 中 s 就 是 式 (8.44) 中 的 v, 这 里 换 成 s LAT SLES. 之 前 的 分 
析 已 经 表明 , Momentum 在 每 次 梯度 下 降 时 相当 于 走 了 两 步 : 第 一 步 沿 着 上 次 迭代 的 方 
向 ; 第 二 部 沿 着 当前 迭代 的 梯度 方向 。 而 Nesterov Momentum 的 参数 更 新 为 
le 
[bent 2 fius — ask-i) 
Sk = GSK-1 + gy pin} 


Wk+1 = Wk — Sk 


前 面 的 分 析 也 已 经 表明 , Nesterov Momentum 算法 通过 “提前 预测 一 步 ” 的 方式 修正 了 梯 
度 下 降 的 方向 。 现 在 对 Nesterov Momentum 算法 进行 一 下 修改 , 让 它 更 加 接近 Momentum 


gx ==> fun) 
i=1 


72 
Sk = Q8k—1 t 19k (8:72) 


WEk+1 = Wk — (QSk + gi) 
修改 之 后 的 Nesterov Momentum 算法 把 “提前 预测 一 步 ” 放 在 了 参数 的 更 新 上 而 不 是 梯 
度 的 计算 中 。 这 种 修改 在 保持 Nesterov Momentum 收敛 效果 的 同时 , 让 算法 更 加 接近 于 
Momentum, 两 者 唯一 的 区 别 在 于 , 更 新 参数 时 Momentum 用 的 是 上 一 次 和 迭 代 中 的 sk_1， 
而 修改 后 的 Nesterov Momentum 用 的 是 当前 迭代 的 sk。 
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沿 着 这 个 思路 , 便 可 以 轻易 地 把 Adam 修改 成 为 Nadam 了 。 首 先 来 看 Adam 算法 
中 与 Momentum 算法 相关 的 部 分 


m 


gr = fiui) 


i=1 


Sk = P18k-1+ (1— pi) 9% 


: ia (8.73) 
oe i-o 
WEk+1 = Wk — DER 
把 上 式 中 第 二 、 第 三 个 式 子 代入 第 四 个 式 子 
= T pisk-1 , (L—pi) 9% 
mam cet 1-pf ) dns 
上 式 中 的 IX 约 等 于 上 一 次 迭代 中 的 修正 一 阶 矩 估计 31. 
= FL 
ic x [d = Bk_1 (8.75) 
代入 式 (8.74) 得 到 
Wk+1 = Wk 一 ZG (nis 十 SER) (8.76) 


前 面 把 式 (8.76) 改写 成 Nesterov Momentum 的 形式 , 根据 Momentum xt (8.70) 和 修改 
后 的 Nesterov Momentum 式 (8.72) 的 关系 , 我 们 只 需要 把 式 (8.76) 中 的 8, a 替换 成 8, 
便 可 以 得 到 “提前 预测 一 步 ” 的 效果 ,从 而 得 到 Nadam 


— ex cu. s 07 0)9i 
Wk+1 = Wk Vig +5 (ns. do E. (8.77) 


Nadam 算法 框架 如 下 。 


Nadam 算 法 框架 


输入 : 步 长 n 指数 衰减 率 m 和 po 初始 参数 值 w, 极 小 常量 5( 确 保 分 母 不 为 0) 
初始 : 随机 梯度 一 阶 矩 估计 s = 0. 随机 梯度 二 阶 矩 估计 r = 0, BARU k = 0 
BS: 当 终止 条 件 不 满足 时 

(1) AQ k — k-1 

(2) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g — E È fi(w) 


(3) 更 新 有 偏 一 阶 矩 估计 s — pis - (1 一 pi1)g 
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(4) 更 新 有 偏 二 阶 矩 估计 ~ — por + (1— p2)g Og 
(5) 修正 有 偏 一 阶 矩 估计 3 = udi 
(6) 修正 有 偏 二 阶 矩 估计 P = uc 
(7) 计算 9 = 1-5 一 一 (用 于 计算 Nesterov Momentum) 


(8) 计算 Nesterov 方式 的 一 阶 矩 估计 5= p18 十 (1 一 p1)9 
(9) 计算 参数 在 不 同 维度 上 的 更 新 量 Aw — 一 一 一 5 

VF+6 
(10) 更 新 参数 w= w+ Aw 


按照 这 个 思路 ， AdaMax 同样 可 以 轻松 地 修改 成 Nesterov 方式 的 NadaMax。 
NadaMax 算法 框架 如 下 。 


NadaMax 算 法 框架 


MIA: PK n 指数 衰减 率 pl 和 po, 初始 参数 值 w 
初始 : 随机 梯度 一 阶 矩 估计 s = 0, 随机 梯度 lo 范 数 的 累积 向 量 u= 0, BAKA k=0 
BR: 当 终止 条 件 不 满足 时 

(1) ERKA k k+1 
(2) 随机 采集 m 个 样本 组 成 mini-batch 并 计算 预计 位 置 的 随机 梯度 g — 
(3) 更 新 有 偏 一 阶 矩 估计 s — pis + (1—pi)g 
(4) 更 新 loo 范 数 的 累积 向 量 r (Por) 
(5) 修正 有 偏 一 阶 矩 估计 3 = 0-55 
(6) 计算 ĝ = 了 用 于 计算 Nesterov Momentum) 

~ PIL 

(7) 计算 Nesterov 方式 的 一 阶 矩 估计 8 = p18 十 (1 一 p1)9 
(8) 计算 参数 在 不 同 维度 上 的 更 新 量 Aw — -13 
(9) 更 新 参数 w = w+ Aw 


Eft) 


1 
m 


8.4 ”随机 梯度 下 降 法 的 并 行 实现 


l. 拆 分 训练 样本 的 并 行 


虽然 随机 梯度 下 降 法 比 完全 梯度 下 降 法 的 速度 已 经 快 了 很 多 , 但 当 数 据 量 特别 巨大 
的 时 候 ， 随 机 梯度 下 降 法 的 求解 速度 可 能 还 是 无 法 满足 要 求 。 此 时 不 得 不 考虑 把 梯度 下 
降 法 改写 成 并 行 算 法 。 
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完全 梯度 下 降 法 的 并 行 实现 十 分 直观 。 每 次 迭代 过 程 中 把 训练 集 分 到 1 个 子 集 S, 
52,… St 中 ; 然后 把 每 个 子 集 分 别 分 配给 一 台 计算 机 或 CPU 并 行 计算 2 filwr): 最 
ies. 
后 把 1 个 结果 收集 起 来 得 到 完全 梯度 


Ri,(wx) = E (= fui) M sem) 


iES1 i€S, 
然而 并 行 完全 梯度 下 降 法 并 没有 太 多 实际 意义 ， 因为 即使 有 足够 多 的 机 器 , 每 台 机 器 只 
分 配 一 个 样本 ,并 行 完 全 梯度 下 降 法 单 次 迭代 的 时 间 开 销 也 只 能 达到 随机 梯度 下 降 法 的 
KP, 也 就 是 说 并 行 完 全 梯度 下 降 法 最 好 的 情况 下 也 只 能 看 作 是 线性 收敛 速率 的 随机 梯 
度 下 降 法 , 未 必 比 SVRG £k SAGA Etk, 而 且 还 未 考虑 每 次 迭代 中 大 量 机 器 之 间 的 通信 
开销 。 因 此 我 们 还 是 要 考虑 把 随机 梯度 下 降 法 并 行 化 。 


2. 异步 一 致 随机 梯度 下 降 法 


SGD 似乎 是 一 个 天 然 的 “ 串 行 ” 算法 , 每 次 迭代 只 选择 一 个 样本 用 于 更 新 当前 的 参 
数 , 没有 任何 可 以 并 行 化 的 空间 。 这 是 因为 只 有 在 每 轮 和 迭代 的 梯度 下 降 


Wei = Wk — Nk fi (wk) (8.78) 


完成 得 到 新 的 w 后 才能 开始 下 一 轮 迭 代 。 因 此 如 果 想 把 SGD 并 行 化 , 思路 之 一 就 是 
突破 式 (8.78) 的 限制 。 也 就 是 说 , 每 次 迭代 中 随机 梯度 gi 或 f; 的 计算 不 一 定 是 基于 当前 
的 wk, 也 可 以 是 基于 之 前 时 刻 的 参数 如 wx-1,… , wr。 从 这 个 想法 出 发 , 便 引出 了 下 面 
要 介绍 的 异步 一 致 随机 梯度 下 降 法 (Asynchronous Parallel Stochastic Gradient-Consistant 
Read, AsySG-Con)。 

假设 系统 采用 的 并 行 设计 模式 是 Master-Worker 模式 ，Master 负责 接收 和 分 配 任 
务 , Worker 负责 处 理子 任务 , 当 各 个 Worker 将 子 任务 处 理 完 后 , 将 结果 返回 给 Master, 由 
Master 进行 归纳 和 汇总 (图 8.1)。 对 于 AsySG-Con 算法 , Master 负责 维护 参数 w, Worker 
负责 计算 随机 梯度 。 各 Worker 之 间 只 与 Master 通信 且 相 互 独立 。 所 有 的 Worker 同时 
不 断 地 重复 执行 下 面 的 动作 (图 8.2). 

(1) 从 Master 读 取 当 前 时 刻 的 参数 w; 

(2) 随机 选择 一 个 样本 6; 

(3) 计算 随机 梯度 g(w; €) = f'(w;£) 

(4) 把 g(w;£) 返回 给 Master. 
而 Master 一 直 在 重复 下 面 的 动作 。 


机 器 学 习 ; 算法 着 后 的 理论 与 化 化 ED) 


这 是 
提 人 


Worker 


Worker 


CPU Worker 


图 8.1 Master-Worker 并 行 设计 模式 
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| 8.2. AsySG-Con 算法 


(1) 从 各 Worker 处 收集 随机 梯度 g; 当 收 集 到 足够 数目 N 时 , 进行 下 一 步 ; 
(2) 将 N 个 随机 梯度 求 和 得 到 


N N . 
G - gi = Y olina] (8.79) 
i=l = 
(3) 更 新 参数 WEk+1 = UK 一 mG 
X (8.79) 中 隐 含 了 
gi = g( ws, s?) (8.80) 


因为 每 个 Worker 之 间 的 行为 是 异步 的 , 在 更 新 k 时 刻 的 参数 wk 时 , 某 些 Worker 
给 Master 的 随机 梯度 9 存在 延迟 , 也 就 是 说 某 些 9 并 非 是 基于 wk 得 到 的 , 而 是 基 
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F k 时 刻 之 前 的 w 计算 所 得 。 若 用 ms 表示 gi 相对 于 wk 的 延迟 , 那么 gi 便 是 基于 参 
数 win, 和 样本 CO 得 到 , 其 中 wi uL, 是 天- nua 时 刻 的 参数 , 于 是 就 有 了 式 (8.80)。 
目标 函数 是 凸 函 数 时 ,， 当 随机 梯度 的 延迟 m; 有 界 、 并 行 的 Worker 之 间 冲 突 率 足够 小 、 
随机 选择 样本 e(? 独立 时 ，AsySG-Con 算法 可 以 确保 收敛 到 最 小 值 。 对 于 目标 函数 非 凸 
的 情况 , 如 果 满足 上 述 3 个 假设 条 件 ，AsySG-Con 算法 同样 可 以 收敛 到 极 小 值 。 

AsySG-Con 算法 可 以 有 以 下 两 个 简单 的 变化 。 

(1) Worker 可 以 以 mini-batch 的 方式 计算 随机 梯度 g; 

(2) Master 收集 的 随机 梯度 g 的 数目 设置 为 N = 1 时 , AsySG-Con 就 是 简单 的 并 行 
SGD. 


3. 异步 不 一 致 随机 梯度 下 降 法 


AsySG-Con 做 到 了 随机 梯度 计算 的 并 行 ， 但 该 算法 中 有 一 个 步骤 的 时 间 开 销 巨大 : 
在 Master 更 新 参数 w 时 需要 对 共享 内 存 (Shared Memory) 加 锁 。 加 锁 开 锁 操 作 本 身 的 
时 耗 就 很 大 (大 约 是 浮 点 运算 的 104 倍 ); 而 且 当 共享 内 存 加 锁 后 , 所 有 试图 从 Master 读 
取 参 数 w 的 Worker 都 必须 停止 运行 开始 等 待 , 直到 共享 内 存 开锁 。 

AsySG-Con 之 所 以 需要 进行 锁 操 作 是 因为 要 保证 Worker 读 取 参数 w 的 一 致 性 。 注 
意 w 是 一 个 向 量 , 而 在 实际 场景 中 w 的 元 素数 目 往往 很 大 。 如 果 Master 在 更 新 w 的 
时 候 不 加 锁 ， 就 无 法 保证 Worker 读 取 到 的 元 素 wj 都 是 属于 当前 时 刻 的 w。 例如, 假设 
当前 为 大 时刻, 在 Master 更 新 wk 的 时 候 Worker 读 取 参数 得 到 wr wy 中 一 部 分 元 素 
属于 wi, 另外 一 部 分 元 素 可 能 属于 wk+l, 甚至 属于 wk+2,3,…。 这 就 是 AsySG-Con 算法 
中 “Con”( 一 致 性 ，Consistant) 的 由 来 。 

如 果 想 获得 更 快 的 算法 , 就 需要 把 共享 内 存 的 锁 操 作 去 除 。 下 面 提出 的 异步 不 一 致 
随机 梯度 下 降 法 (Asynchronous Parallel Stochastic Gradient-Inconsistant Read, AsySG- 
Incon) 便 消除 了 对 Worker 读 取 参 数 一 致 性 的 限制 。 

为 了 方便 描述 算法 , 现在 要 重新 对 “迭代 ”进行 定义 。 之 前 提 到 的 所 有 下 降 算 法 中 每 
次 迭代 均 指 的 是 对 参数 w 向 量 进行 迭代 更 新 ,而 在 AsySG-Incon 中 对 参数 w 向 量 的 一 
个 元 素 进行 更 新 便 成 为 一 次 迭代 。 我 们 还 用 wk 表示 Master 中 次 迭代 之 后 得 到 的 参 
数 , 而 ùr 表示 Worker 读 取 到 的 参数 。 于 是 dv, 与 wk 的 差别 就 在 于 doy, 中 的 一 些 元 素 
比 wk 中 对 应 的 元 素 少 了 一 次 或 多 次 更 新 , 也 就 是 说 dy 比 wk 少 了 一 些 迭 代 。 所 以 do. 
与 wk 存在 以 下 关系 


diy = wy — > (Wit1 — wj) (8.81) 
jeJ(k) 
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其 中 J(k) 是 d», 缺少 的 迭代 集合 ,显然 I(k) 是 (E 一 1,k - 2,… ,0} 的 子 集 。 如 果 用 
(wk), 表示 向 量 wk 的 第 i, 个 元 素 , 那么 参考 AsySG-Con 的 参数 更 新 公式 ( 式 (8.79)) 
可 以 得 到 AsySG-Incon 参数 更 新 公式 为 


N 
(wisn = (wade -0Y Ulki Eu (8.82) 
1 


其 中 g (toys; E) 是 Master 收集 的 N 个 随机 梯度 中 的 第 i 个 ; 6 为 第 i 个 随机 梯度 计 
算 时 选择 的 样本 ; doi; 是 第 i 个 随机 梯度 计算 时 对 应 Worker 读 取 到 的 参数 , 可 以 写 为 


Wi = WE 一 > (wj+1 — wj) (8.83) 
jeJ(k,i) 

其 中 J(k, i) 为 dox; 相对 于 wy 缺少 的 迭代 集合 。 

与 AsySG-Con 相 比 ，AsySG-Incon 唯一 的 不 同 只 是 在 更 新 参数 w 时 不 对 共享 内 存 
加 锁 而 已 。 同 样 的 , 在 满足 假设 : 

(1) 随机 选择 样本 cO 是 独立 的 ; 

(2) 并 行 的 Worker 之 间 冲 突 率 足够 小 ; 

(3) 延迟 J(k,i) 有 界 。 
时 , AsySG-Incon 在 目标 函数 为 凸 函 数 时 收敛 到 最 小 值 ， 目 标 函 数 非 凸 时 收敛 到 极 小 值 。 


8.5 h 


从 本 章 开始 进入 了 本 书 的 第 二 部 分 一 一 使 用 优化 算法 求解 机 器 学 习 问题 。 首先 详细 
描述 了 机 器 学 习 场 景 下 的 优化 问题 。 在 第 4 章 “ 经 验 风 险 最 小 ”中 定义 了 经 验 风险 函数 ， 
对 于 有 监督 学 习 该 函数 是 训练 集中 每 个 样本 的 预测 值 与 观测 值 之 间 的 风险 的 和 函数 。 当 
训练 集 的 样本 数量 巨大 的 时 候 , 计算 结构 风险 函数 的 开销 也 将 十 分 巨大 。 因 此 计算 完全 
梯度 的 梯度 下 降 法 或 牛顿 法 在 处 理 大 数据 问题 时 的 实际 速度 往往 是 不 可 接受 的 。 基 于 经 
验 风 险 函 数 本 身 的 结构 特性 , 我 们 有 了 “每 次 迭代 选取 一 部 分 样本 、 甚 至 只 选取 一 个 样 
本 来 估算 梯度 ”的 想法 。 沿 着 这 个 思路 , 我 们 提出 了 随机 梯度 下 降 法 。 在 对 随机 梯度 下 降 
法 进行 收敛 性 分 析 时 发 现 ， 因 为 随机 性 的 存在 , 每 次 迭代 时 使 用 的 随机 梯度 作为 目标 函 
数 真实 梯度 的 估计 会 不 可 避免 地 存在 方差 。 由 于 方差 的 存在 , 随机 梯度 下 降 法 有 两 大 缺 
点 : 算法 无 法 保证 最 终 收敛 到 目标 函数 的 最 优 值 ; @ 收 敛 速率 很 慢 。 

针对 这 两 个 缺点 , 我 们 接着 介绍 了 两 类 改进 随机 梯度 下 降 法 的 策略 一 一 方差 缩减 、 
加 速 和 适应 。 其 中 方差 缩减 策略 通过 修正 每 次 迭代 中 的 偏差 来 克服 两 大 缺点 ， 而 加 速 与 
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适应 策略 则 利用 了 梯度 在 时 间 和 空间 上 的 信息 达到 相同 的 目标 。 前 者 目前 更 多 的 是 在 理 
论 方面 进行 探讨 ， 而 后 者 衍生 出 来 的 算法 已 经 广泛 应 用 于 各 种 工程 实践 中 。 接 着 在 数学 
上 证 明了 方差 缩减 策略 的 效果 ， 并 介绍 了 两 种 具体 实现 —— SVRG 算法 和 SAGA 算 
ik. SVRG 算法 利用 梯度 的 历史 信息 对 每 次 迭代 中 的 随机 梯度 进行 修正 , 而 SAGA 算 
法 则 是 使 用 其 他 样本 的 梯度 信息 对 随机 梯度 进行 修正 。 然 后 又 对 当前 流行 的 应 用 加 速 和 
适应 策略 的 算法 进行 了 介绍 。 加 速算 法 主要 有 Momentum 和 Nesterov 方式 的 Momen- 
tum。 其 中 Momentum 会 把 前 一 次 迭代 中 的 下 降 考 虑 进去 ， 从 而 加 速 了 下 降 的 过 程 并 
且 能 够 在 某 种 程度 上 克服 噪声 的 影响 。 而 Nesterov Momentum 在 Momentum 的 基础 
上 巧妙 地 添加 了 “提前 预测 一 步 ” 的 机 制 ， 使 得 下 降 的 方向 更 加 准确 。 适 应 算法 认为 不 
同 维度 方向 上 的 步 长 应 当 根 据 该 方向 上 的 梯度 信息 进行 放 缩 。 这 类 算法 中 介绍 了 Ada- 
Grad、RMSProp、AdaDelta。AdaGrad 不 断 地 累积 每 次 迭代 中 各 个 维度 上 梯度 的 平方 ， 
之 后 根据 累积 得 到 的 历史 信息 对 不 同 维度 方向 上 的 步 长 进行 缩放 。 然而 AdaGrad 从 开始 
训练 便 不 断 地 累积 梯度 的 平方 , 这 有 可 能 造成 在 到 达 极 小 值 点 之 前 所 有 维度 上 的 步 长 都 
变 得 很 小 , 针对 这 一 缺点 , RMSProp 通过 添加 指数 衰减 只 累积 “近期 ”的 梯度 信息 , 大 大 
改善 了 算法 的 表现 。 AdaDelta 是 与 RMSProp 相同 时 间 独 立 发 展 出 来 的 一 个 算法 , 从 算法 
实现 上 它 可 以 看 作 是 RMSProp 的 一 个 变种 。AdaDelta 从 量 纲 的 角度 对 参数 更 新 做 了 一 
些 修改 。 紧 接着 , 又 把 加 速 和 适应 结合 了 起 来 。Adam JÉ * Momentum--RMSProp" , Nadam 
Æ “Nesterov Momentum+RMSProp”. 而 AdaMax 和 NadaMax 则 是 前 面 两 个 算法 的 Ly 
范 数 泛 化 版 本 。 

最 后 介绍 了 随机 梯度 下 降 算法 的 并 行 实现 , 包括 AsySG-Con 和 AsySG-Incon 两 种 
拆 分 样本 数据 的 并 行 算法 。 两 种 并 行 算法 均 是 采用 Master-Worker 模式 。 在 AsySG-Con 
中 , 每 个 Worker 不 断 地 从 Master 中 读 取 当 前 时 刻 的 参数 , 然后 随机 选择 一 个 样本 计算 
梯度 ; Master 从 各 Worker 处 收集 随机 梯度 ， 当 收集 到 足够 的 数目 时 ，Master 对 共享 内 
存 加 锁 并 更 新 参数 。 虽 然 AsySG-Con 实现 了 随机 梯度 下 降 的 并 行 化 , 但 依然 有 很 多 时 间 
开销 花 在 了 加 锁 、 开 锁 操 作 上 。AsySG-Incon 在 AsySG-Con 的 基础 上 去 掉 了 加 锁 、 开 锁 
操作 , 进一步 加 快 了 算法 的 速度 。 

本 章 介绍 的 最 优化 算法 均 是 针对 机 器 学 习 场 景 所 设计 的 。 接 下 来 在 第 9 章 “ 常 见 的 
最 优化 方法 ”中 将 会 探讨 梯度 下 降 法 的 数学 原理 。 
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常见 的 最 优化 方法 


本 章 将 对 常见 的 优化 方法 展开 讨论 ， 主要 探讨 最 优化 中 的 梯度 算法 。 第 7 章 “ 拉 格 
朗 日 乘 子 法 ”的 内 容 是 本 章 的 理论 部 分 , 而 第 8 章 “ 随 机 梯度 下 降 法 ”可 以 看 作 是 本 章 内 
容 在 机 器 学 习 场 景 下 的 特例 。 


9.1 ”最速 下 降 算法 


最 优化 算法 处 理 的 问题 是 求 函数 f(z) 的 最 小 值 。 如 果 f(z) 极其 复杂 , 没有 解析 解 ， 
我 们 该 如 何 去 做 ? 既然 无 法 直接 计算 得 到 , 那 也 许 就 可 以 通过 逐步 试探 的 方式 来 一 步 步 地 
到 达 最 小 值 。 假 设 出 发 点 是 z(0), 第 一 步 走 到 了 rapo 第 大 步 走 到 了 may; 一 个 直观 
的 想法 就 是 , 如 果 每 一 步 到 达 的 函数 值 都 比 之 前 一 步 小 , 即 fleg) < flea) 那么 总 
有 一 天 我 们 会 走 到 f(x) 的 最 小 值 (或 者 极 小 值 ) 那里 去 , 当然 这 里 需要 假设 f(z) 的 最 小 
值 不 是 -co, BI f(x) 有 下 界 。 基 于 这 个 想法 的 算法 被 称 为 下 降 算 法 (Descent Methods). 

在 下 降 算法 的 每 一 步 该 如 何 选择 前 进 的 方向 呢 ? 很 明显 , 我 们 应 该 选择 下 降 最 快 的 方 
向 。 什 么 是 “下 降 最 快 的 方向 ”? 根据 我 们 在 现实 世界 中 的 生活 经 验 , 迈 出 单位 步 长 后 下 降 
最 多 的 方向 就 是 下 降 最 快 的 方向 。 此 外 还 面临 着 另外 一 个 棘手 的 问题 : m 6 R” 时 , f(z) 
往往 十 分 复杂 , 很 难 直 接 对 其 进行 处 理 , 因此 需要 对 f(x) 进行 近似 。 我 们 知道 , 在 足够 
小 的 范围 内 , 可 以 对 f(z) 进行 一 阶 泰勒 展开 , 使 用 线性 函数 来 近似 f(x) 


f(w+ 6x) ~ f(z) + f'(2)' öx (9.1) 


A (9.1) 中 右边 第 二 项 f'(x) ós 可 以 看 作 是 对 “ 迈 出 一 小 步 gz 之 后 函数 f 变化 量 ” 
近似 。 前面 的 分 析 中 我 们 指出 , 寻找 “下 降 最 快 的 方向 ”之 前 需要 先 定义 “单位 步 长 ”。 在 
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R^ 空间 中 , 使 用 范 数 (Norm) 来 度量 长 度 。 设 | .| 为 R^ 中 的 某 一 范 数 , 下 降 最 快 的 方 
向 Aw 即 为 当 llóz|| = 1 时, > f'(a) ór 最 小 的 ôs, 即 


Awe = argmin{ f'(x)" de | ll6zll = 1) (9.2) 


其 几何 意义 是 , 在 || - || 范 数 定义 的 单位 球 内 (以 z 为 球 心 ), WE Ar 方向 可 以 达到 f 最 
大 的 下 降 距 离 六 (z) 7 Az。 这 种 沿 着 “下 降 最 快 的 方向 ”进行 不 断 逼 近 的 方法 称 为 最 速 下 
降 算 法 (Steepest Descent Method)。 

上 面 的 分 析 中 提 到 使 用 “ 某 一 范 数 ”来 度量 长 度 , 但 并 未 指明 具体 是 哪 种 范 数 。 事 实 
E, 任何 一 种 范 数 均 可 以 用 来 寻找 最 速 下 降 的 方向 , 而 且 不 同 的 范 数 对 应 着 不 同 的 算法 。 
下 面 将 对 不 同 的 范 数 选择 分 别 进行 讨论 。 


9.1.1 lp 范 数 与 梯度 下 降 法 


最 常见 也 最 容易 理解 的 范 数 就 是 欧 氏 范 数 (Euclidean Norm), Bü lo 范 数 。 根 据 式 
(9.2)， 目 标 式 子 f(a) ór ERMA f(x) 和 6z 的 内 积 , 可 以 看 作 是 gz 在 f'l) X 
向 上 的 投影 再 乘 以 f(x) 的 长 度 |f) 因此 Ar 是 在 —f'(s) 方向 上 投影 最 大 的 om. 
在 lo 范 数 定义 的 单位 球 内 , 与 -f (m) 方向 重合 的 5z > f(x)" óc 取 到 最 小 值 。 图 9.1 
展示 了 x CR? 时 的 情况 。z 只 有 两 个 维度 的 时 候 , 12 范 数 定义 的 单位 球 是 一 个 正 圆 , 很 
明显 Az 与 -f'(z) 重合 。 


-f'(z) 
Ag 


图 9.1 l 范 数 对 应 的 最 速 下 降 算法 


既然 Ac 与 —f'(z) EA, 那么 最 速 下 降 方向 上 的 单位 向 量 为 


_ -fle) 
A2 = Tall (8.3) 


只 取 上 式 的 向 量 部 分 并 设 每 次 迭代 的 步 长 为 n 则 有 
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E+) = Le) — nf (x) (9.4) 
3X (9.4) 就 是 梯度 下 降 (Gradient Descent) 算法 。 
9.1.2 h 范 数 与 坐标 下 降 算 法 


by 范 数 也 是 使 用 较 多 的 一 种 范 数 , 当 使 用 4 范 数 作为 长 度 的 度量 时 , 最速 下 降 算法 
是 怎样 的 情形 呢 ? 与 之 前 对 lo 范 数 的 分 析 类 似 , 使 用 hi 范 数 时 式 (9.2) 变 为 


Az = argmin( f'(x)" da | |óz|; = 1) (9.5) 
ox 


T h 范 数 定义 的 单位 球 是 一 个 超 立方 体 (Hypercube), da 在 f(z) 方向 上 取 到 最 长 的 投 
SEIN bz 必然 指向 单位 超 立方 体 的 某 个 顶点 处 。 图 9.2 展示 了 c € R? 时 的 情况 。 当 = 
只 有 两 个 维度 时 ,12 范 数 定义 的 单位 球 是 一 个 正方 形 , 很 明显 de 指向 某 一 个 顶点 时 在 
一 f(z) 方向 上 的 投影 最 大 , 所 以 Az 指向 单位 超 立 方 体 的 某 一 个 顶点 。 


Ag 


9.2 l 范 数 对 应 的 最 速 下 降 算法 


由 此 可 知 最 速 下 降 的 方向 为 


Oa; ; Of(z) 
WW i argmax f| a |} i 


其 中 zi 为 向 量 z 的 第 ; 个 分 量 ，e@ 为 第 i 个 标准 正 交 基 。 同样 地 , 取 其 向 量 部 分 并 设 
EKA n 则 
T(k+1) = Lk) Pf) eO, i argmax {| ae ) (9.7) 


X (9.7) 的 意思 是 每 次 迭代 都 会 选择 沿 某 一 个 坐标 轴 下 降 最 大 的 方向 来 更 新 Eje 
方法 通常 被 称 为 坐标 下 降 (Coordinate Descent) 算法 。 


Aa 
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9.1.3 ”二 次 范 数 与 牛顿 法 
满足 正定 性 、 齐 次 性 和 三 角 不 等 式 的 实 值 函数 都 可 以 定义 为 一 个 范 数 ， 除 了 经 常见 


到 的 1, 范 数 和 lo 范 数 , 还 有 一 种 不 常见 的 范 数 称 为 二 次 范 数 (Quadratic Norm), 其 定义 
如 下 


zle = (zT Px)? (9.8) 


其 中 P 是 一 个 正定 矩阵 。 

因为 P 为 正定 矩阵 , BU P > 0. 则 存在 矩阵 B > 0 使 得 P = B’, B 称 为 4 的 平 
方 根 , 记 为 P+。 下 面 给 出 一 个 简要 的 证 明 。 

因为 P 正定 ， 故 可 以 对 角 化 为 P = U*DU, 其 中 U JAER, WA U*U = 
UU* — I, D = diag( 和 1, 和 2,… ,Mn) 为 对 角 线 元 素 是 P 的 特征 值 的 对 角 矩 阵 , HOP IE 
ETA A; > 0。 令 D? = diag(VNVX , Vn)» UR B = U' DÉU. | B= BB = 
U*D?UU*D?U = U*DU =P. 


TR 
lizllp  (z" Px)? (9.9) 

— (a! P3! Pig) (9.10) 

=((P?2)' Pia) (9.11) 

=||P?2ll2 (9.12) 


其 中 式 (9.10) 是 因为 P 是 正定 矩阵 , 所 以 PIT = P? (正定 矩阵 缘 为 实 对 称 和 矩阵 ),， 式 
(9.12) 是 根据 12 范 数 的 定义 lio = (zTz)3。 

由 此 可 见 , z 的 二 次 范 数 相 当 于 先 对 其 左 乘 一 个 正定 矩阵 P 之 后 再 取 D 范 数 。 也 
就 是 说 先 对 c 进行 了 一 次 线性 变换 。 令 z= Pia, WA lal, = llla. 同时 定义 函数 F 


f(a) = f(P752) = f(z) (9.13) 


对 于 来 说 , 因为 此 时 我 们 选择 了 o 范 数 为 最 长 度 的 度量 , 所 以 最 速 下 降 方向 与 —J"(z) 
重合 


MES 
N=- gau 
CP Pip han (935) 


| qp fO Ea)» 
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ZSP CPU (9.16) 
|P- f'(æ)ll2 

_ -P> f'(x) 

EZO Gan 

z-(f(z)' P7 f(z)) 3 P75f'(z) (9.18) 


其 中 式 (9.17) 的 分 母 是 代入 二 次 范 数 的 定义 ; 5X (9.18) 是 把 分 母 上 的 二 次 范 数 展开 。 
因为 Az = P?Az, 则 


Ag=P?Az (9.19) 
—-(f'(z)' P f(z)) $ P! f'(z) (9.20) 


同样 地 , 只 取 式 (9.20) 的 向 量 部 分 , 并 设 步 长 为 n, W 
(a) = 20) - 1P f(z) (9.21) 


接 下 来 从 几何 的 角度 来 解释 一 下 选择 二 次 范 数 作为 长 度 度量 时 最 速 下 降 算法 的 意 
义 。 前 面 的 分 析 中 指出 , 根据 式 (9.12) 二 次 范 数 可 以 看 作 是 对 向 量 进行 一 次 线性 变换 之 
后 5 = Pia d, 范 数 。 此 时 的 单位 球 为 |5ll。= 1。 那么 单位 球 再 变换 回来 之 后 的 
|.P73z|p = 1. BI elp = 1 是 什么 样子 呢 ? 下 面 来 考察 Pir. MOS P? 是 正定 矩阵 ， 
则 它 的 逆 矩 阵 p-? 也 是 正定 矩阵 。 设 P? 的 特征 值 为 3, 则 已 -二 的 特征 值 为 和 -3, HL 
对 应 的 特征 向 量 e 相互 正 交 。 因此 e® 可 以 作为 空间 的 一 组 正 交 基 。 把 向 量 z 写成 在 
该 组 基 下 的 坐标 形式 z = Y, ze, 于 是 有 


2 元 一 三 : Zie É 
Piz-Pi © 9.22 
i 
=》 二 PteO (9.23) 
-X am 
一》 Zi; 7e (9.24) 


其 中 式 (9.24) 是 源 于 特征 值 与 特征 向 量 的 关系 。 式 (9.24) 的 意义 是 把 向 量 & 在 每 个 正 交 
基 分 量 eO 上 分 别 缩放 了 AL 倍 。 因 此 |El = 1 所 定义 的 单位 球 在 经 过 线性 变换 POF 
之 后 变 为 单位 椭 球 ||zl|p = 1. 二 维 情况 下 的 图 像 如 图 9.3 所 示 。 

前 面 的 分 析 只 是 假设 了 P 是 一 个 正定 矩阵 , 并 没有 规定 P 的 具体 形式 。 由 图 9.3 可 
以 看 出 , 不 同 的 P 矩阵 显然 会 对 最 速 下 降 算法 的 效率 产生 影响 。 既 然 P 的 选择 有 无 限 
多 种 , 那么 问题 来 了 , 该 如 何 确定 P 的 结构 形式 呢 ? 这 个 问题 将 在 后 面 的 小 节 中 进行 讨 
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ie. 这 里 先 给 出 一 个 P 矩阵 的 最 常见 的 选择 。 我 们 知道 ,如果 函数 f(z) &— T REIS 
函数 , W f(z) 的 二 阶 导 数 ， 即 Hessian 矩阵 是 一 个 正定 矩阵 , 若 使 用 Hessian 矩阵 作为 
P, 并 取 步 长 为 1, WR (9.21) 变 为 


Tay) = 29) — f"(2) f(z) (9.25) 


3X (9.25) 就 是 牛顿 法 (Newton Method). 


-f'() 


图 9.3 二 次 范 数 对 应 的 最 速 下 降 算法 


9.2 DIKE 


在 前 面 几 章 中 已 经 知道 , 选择 不 同 的 范 数 作为 长 度 的 度量 会 得 到 不 同 的 最 速 下 降 方 
向 , 分 别 对 应 不 同 的 最 速 下 降 算法 。 如果 设 下 降 方向 为 Ar, 并 设 步 长 为 根据 式 (9.1)， 
每 次 迭代 的 更 新 法 则 为 


r—zt4nÁAr (9.26) 


其 中 Ac 是 由 不 同 的 范 数 选择 所 确定 的 ， 而 步 长 7 还 没有 确定 。 很 显然 , n 的 最 优 取 值 
FES f(z) 下 降 最 大 的 值 


7 = argmin f(x + tAz) (9.27) 
120 


可 以 看 出 , 式 (9.27) 的 意义 是 在 射线 (209 + tf (c) > 0) 上 精确 寻找 令 f(x) 值 最 小 
KWAK. 该 方法 称 为 精确 线 搜索 (Exact Line Search)。 显 然 , 在 实际 情况 下 , 每 一 步 迭 代 
都 去 精确 寻找 n 的 最 优 值 是 十 分 困难 的 , 这 似乎 又 变 成 了 一 个 新 的 优化 问题 。 因此 在 实 
践 中 通常 会 选择 使 用 不 那么 精确 的 搜索 方法 (Inexact Line Search)。 

常见 的 非 精确 线 搜索 方法 有 以 下 几 种 。 
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(1) 固定 步 长 。 每 一 步 迭 代 的 步 长 是 固定 不 变 的 , 算法 开始 之 前 设 定 n. 
(2) 提前 设 定 步 长 序列 。 算法 开始 前 设 定 步 长 序列 {m} o 一 般 会 令 步 长 逐步 减 小 ， 


例如 
n 
"T VETI 
(3) Armijo-Goldstein 准则 (Armijo-Goldstein Rule). 每 一 次 迭代 中 寻找 0 满足 


(9.28) 


P +nAz) < f(z) + a(/'(2), nz) on 


f(a +nAa) > f(x) + B(f'(z),nAa) 


HHO<a<6<1. 
(4) Wolfe-Powell 准则 (Wolfe-Powell Rule). 每 一 次 迭代 中 寻找 n 满足 


E + nA«) < f(2) + o (2), Ae) -— 


(f'(z + nAz), Az) > Bf'(z)Ax 
f(x * nAz) < f(x) + o(f'(z), Az) (9.31) 
(f(a + nda), Az)| < 8|" (2). Az)| 
HHO<a<B<1. 
9.2.1 Armijo-Goldstein 准则 


Armijo-Goldstein 准则 是 实践 中 应 用 得 比较 多 的 方法 。 下面 从 几何 的 角度 对 其 进行 解 
释 。 假设 在 某 一 步 迭 代 中 所 处 的 位 置 是 ms. 设 关于 步 长 7 的 函数 为 
ó(m) = f(z-nAz), m20 (9.32) 
根据 式 (9.29), 满足 Armijo-Goldstein 准则 的 步 长 7 的 o 函数 图 像 存在 于 两 个 线性 函数 
之 间 
1(n) = f(z) + a(f' (£), Az)n (9.33) 
$»(n) = f(x) + B(f' (2), Ax)n 
因为 (0) = ¢1(0) = ¢2(0) E. 44 (0) < 44(0) <0, 所 以 à. $i. o2 的 图 像 如 图 9.4 所 示 。 
从 图 9.4 中 可 以 看 出 , 满足 Armijo-Goldstein 准则 的 步 长 存在 于 0 到 no 之 间 。 从 代数 
角度 来 看 , 式 (9.29) 的 第 一 个 式 子 中 a(f'(z),nAz) < 0, 从 而 保证 了 /(z+7Az) < f(x), 
即 函 数值 是 下 降 的 ; 而 第 二 个 式 子 中 Bf (ax), nAz) < a(f'(z),nAz) < 0, 可 以 看 出 , 当 


LUNMETTIMETIZTITSITAA 


o 和 6 固定 之 后 , n 越 小 这 个 不 等 式 越 接近 不 成 立 , 因此 第 二 个 式 子 确保 步 长 不 会 太 小 ， 
避免 迭代 过 程 “ 鱼 速 ”前 进 。 
^ 
f(z+nAz) 


f(z--nAz) 


Tus f(a) +(e), Ae) 


X Hx)+a(f(@), Az)n M 
E————LL.—————330———————————————————M x 
0 n 


图 9.4 Armijo-Goldstein 准则 


Armijo-Goldstein 准则 中 的 两 个 参数 o 和 6 需要 提前 设 定 ， 若 参数 的 值 选 得 不 好 ， 
很 可 能 出 现 的 情况 是 目标 函数 的 极 小 值 点 并 不 包含 在 oi 和 oo 所 界定 的 区 间 内 。 之 所 
以 会 出 现 这 种 情况 是 因为 Armijo-Goldstein 准则 只 要 求 函 数值 下 降 ， 并 没有 考虑 极 值 点 
的 任何 信息 。 我 们 知道 在 函数 的 极 值 点 其 导数 为 0， 因 此 考虑 在 准则 中 加 入 目标 函数 导 
数 的 信息 来 确保 极 值 点 始终 位 于 满足 准则 的 步 长 区 间 之 内 。 添 加 导数 信息 之 后 就 得 到 了 
Wolfe-Powell 准则 。 


9.2.2 Wolfe-Powell 准则 
对 比 式 (9.29) 和 式 (9.30), Wolfe-Powell 准则 的 第 一 个 式 子 与 Armijo-Goldstein 准则 


相同 , 都 是 为 了 保证 函数 值 是 下 降 的 , 因此 该 式 又 被 称 为 充分 下 降 条 件 (Sufficient Decrease 
Condition)。 现 在 要 把 导数 信息 考虑 进去 。 对 o 和 do 分 别 求 导 可 得 


amine pm "- 


5(n) = B(f'(z), A) 
注意 , AA (F(s), As) <0, 所 以 p <0; 同时 我 们 知道 , 越 接近 极 值 点 目标 函数 的 导数 
越 接近 于 0, 因此 要 求 9(m) > o5 (n) BI 


(f(z +nAz), Az) > B(f'(2), Ax) (9.35) 
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其 中 a < 8 < 1。 于 是 就 得 到 了 Wolfe-Powell 准则 的 第 二 个 条 件 。 式 (9.35) 保证 了 $(n) 
的 斜率 比 8 倍 的 w(0) 处 斜率 大 的 步 长 都 是 符合 准则 的 ， 从 而 保证 了 极 小 值 点 始终 符合 
准则 。 因 此 第 二 个 条 件 又 被 称 为 曲率 条 件 (Curvature Condition). 

A (9.35) 只 是 对 o! < 0 的 一 侧 设置 了 边界 , 我 们 同样 可 以 利用 o, 对 o! > 0 的 一 侧 
进行 界定 ， 从 而 确保 步 长 不 会 过 大 。 于 是 得 到 


IU Gr + nA), Ax)| < 8|" (2), Az)| (9.36) 


XX (9.36) 是 比 式 (9.35) 更 强 的 一 个 条 件 ， 因 此 式 (9.36) 又 被 称 为 强 Wolfe-Powell 准则 
(Strong Wolfe-Powell Rule). 


9.2.3 ”回溯 线 搜索 


Armijo-Goldstein 准则 和 Wolfe-Powell 准则 给 出 了 寻找 步 长 的 条 件 , 并 没有 告诉 我 们 
寻找 步 长 的 方法 。 实 践 中 可 以 使 用 的 方法 很 多 ,回溯 线 搜索 (Backtracking Line Search) 
是 最 常见 的 算法 之 一 。 算法 框架 如 下 。 

(1) 设置 初始 步 长 n= m> a,b € (0,1); 

(2) 判断 当前 步 长 7 是 否 满足 


f(z +nAz) < f(x) + o(f'(z), nAz) (9.37) 


若 满足 则 停止 并 输出 当前 步 长 ; 否则 进行 步骤 (3). 

(3) n = Bn, 重复 步骤 (2)。 

上 面 的 算法 中 使 用 的 终止 条 件 事实 上 就 是 Armijo-Goldstein 准则 和 Wolfe-Powell 准 
则 的 第 一 个 式 子 , 而 两 个 准则 的 第 二 个 式 子 是 “不 完全 地 ” 隐 含 在 算法 之 中 的 。 算 法 首先 
尝试 着 迈 出 一 大 步 ,之 后 再 逐渐 减 小 步 长 直到 满足 充分 下 降 条 件 。 因 此 算法 给 出 的 步 长 
n 满足 

n € (0,74) (9.38) 

其 中 ma A 91 与 9 的 交点 处 。 


9.3 ”收敛 性 分 析 


在 前 面 的 章节 中 介绍 优化 算法 时 我 们 只 是 简单 地 认为 只 要 保证 f(z(x41)) < FE) 
总 能 在 某 个 时 刻 到 达 f 的 最 小 值 f(z2*)( 设 最 小 值 在 z* 处 取 到 )。 然而 在 足够 多 次 的 迭代 
之 后 是 否 真 的 能 够 收敛 到 f(z*), 我 们 并 不 知道 。 而 且 我 们 不 仅 关心 能 否 最 终 收敛 , 同样 
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也 关心 多 快 完成 收敛 。 对 于 每 一 个 具体 的 最 优化 算法 , 我 们 需要 对 上 述 两 点 进行 评估 , 这 
种 评估 被 称 为 收敛 性 分 析 (Convergence Analysis)。 本 节 的 目的 是 介绍 收敛 性 分 析 的 预备 
知识 , 主要 包括 “衡量 收敛 性 的 指标 ”和 “对 目标 函数 的 一 些 假设 ”。 


9.3.1 ”收敛 速率 
KAR f(z) 在 z* 处 取 到 最 小 值 1*。 前 面 介绍 的 下 降 算 法 在 迭代 的 过 程 中 每 一 步 
的 函数 值 组 成 一 个 数列 
f(®@), f(zq)).:- f(z0) f(zax)) °° (9.39) 


其 中 zo 为 起 始 位 置 。 因 此 可 以 借助 衡量 数列 收敛 速率 (Convergence Rate) 的 方法 来 评 
价 下 降 算 法 。 
设 数 列 (px) 收敛 于 p, EFE y > 0, 使 得 


lim Pei = Pl _ y (9.40) 


BK {pn} 以 a 阶 的 速率 收敛 于 p* o FCP 7 称 为 渐进 误差 常数 (Asymptotic Error Constant). 
在 大 多 数 实 际 场景 中 , 我 们 把 pi — p* 定义 为 误差 , 即 e, = px 一 p*。 例如 , 在 下 降 算法 
H, fleg — £*) 就 是 第 大 次 迭代 时 得 到 的 次 优 解 与 最 优 解 的 误差 。 当 大 足够 大 时 , ex K 1 
且 


lea] © lel 9.41 
因为 p 趋 近 于 p*, 所 以 a > 1。 特 别 地 , 24 a = 1, 7<1, 大 足够 大 时 根据 式 (9.41) 有 
leid = ‘lex 9.42 

上 式 左右 两 边 取 log 
In lex 4i| In e] 9.43 
iln 4-Iney 9.44 


所 以 nlek+i| 与 迭代 次 数 i 呈 线 性 关系 ,此 时 称 数列 {pr} 的 收敛 速率 是 线性 的 (Linear 
Convergence Rate)。 

可 以 看 出 , 当 a > 1 时 , 收敛 速率 会 更 快 。 通 常 收敛 速率 可 以 分 为 下 面 几 类 。 

(1) 当 a=1 且 Y=1 时, 收敛 速率 是 次 线性 的 (Sublinear)。 

(2) 当 a=1 且 Y<1 时 , 收敛 速率 是 线性 的 (Linear). 
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(3) 当 1<a<2 时 , 收敛 速率 是 超 线 性 的 (Superlinear)。 
(4) 当 a=2 时 , 收敛 速率 是 二 次 的 (Quadratic). 
(5) 当 a > 2 时 , 收敛 速率 是 超 二 次 的 (Superquadratic)。 


9.3.2 ”对 目标 函数 的 一 些 假设 


可 以 想象 , 除了 算法 本 身 目标 函数 的 特性 应 该 也 会 影响 收敛 性 。 前面 已 经 假设 了 目 
标 函 数 是 有 下 界 的 凸 函数 且 可 微 。 有 下 界 确保 了 全 局 最 优点 的 存在 ， 凸 函数 保证 了 不 存 
在 局 部 最 优点 , 而 可 微 则 使 得 可 以 使 用 下 降 算 法 。 现在 我 们 想 考察 下 降 算 法 的 收敛 速率 ， 
只 假设 目标 函数 可 微 是 不 够 的 ， 因为 可 微 这 个 假设 只 是 保证 了 导数 的 存在 , 解决 了 “能 
否 ” 使 用 下 降 算法 的 问题 , 却 并 不 能 够 让 我 们 去 窥 探 迭 代 下 降 的 过 程 。 

例如 ， 两 个 二 维 函 数 的 函数 图 像 等 高 线 分 别 如 图 9.5 与 图 9.6 所 示 (以 使 用 Do 范 
数 的 梯度 下 降 算 法 为 例 )， 其 中 g(z) 等 高 线 更 加 接近 于 圆 ， 而 h(z) 的 等 高 线 更 加 接近 
于 椭圆 。 可 以 看 出 在 运用 下 降 算法 的 时 候 , h(z) 的 迭代 次 数 要 显著 多 于 g(z) 的 。 原 因 是 什 


图 9.6 各 方向 导数 差别 较 大 的 一 个 函数 h(x) 
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AWE? 是 因为 每 一 次 迭代 所 选择 的 最 速 下 降 方向 并 不 一 定 指向 最 优点 。 该 方向 只 是 在 当 
前 点 下 降 最 快 的 方向 。 可 以 想象 , 如 果 等 高 线 是 一 个 圆 , 那么 每 个 点 的 最 速 下 降 方 向 均 指 
向 圆心 (最 优点 ); 如 果 等 高 线 是 一 个 椭圆 则 每 个 点 的 最 速 下 降 方向 会 偏向 于 椭圆 的 短 
轴 方 向 。 

接 下 来 要 寻找 造成 g(z) M h(a) 等 高 线 几 何 差异 的 原因 。 在 最 优点 函数 各 方向 的 导 
数 均 为 0, 最 优点 附近 等 高 线 接近 圆 说 明 各 个 方向 的 导数 (绝对 值 ) 大 小 相近 ,而 等 高 线 
接近 椭圆 则 表示 长 短 轴 两 个 方向 的 导数 (绝对 值 ) 差别 很 大 。 注意 , 在 最 优点 附近 ,影响 
导数 在 不 同方 向 上 差异 大 小 的 因素 是 导数 在 各 方向 上 的 变化 率 , 而 非 导数 本 身 绝对 数值 
的 大 小 。 这 类 似 于 速度 和 加 速度 的 关系 。 假设 有 一 组 人 同时 从 同一 地 点 朝 着 各 个 方向 沿 
直线 跑 出 去 , 在 出 发 点 附近 , 影响 每 个 人 跑 出 距离 差异 的 并 非 奔跑 速度 , 而 是 速度 之 间 的 
差异 , 即 加 速度 在 时 间 上 的 累计 。 因此, 我 们 需要 对 导数 的 变化 率 进 行 一 些 假设 。 假设 目 
标 函数 f(c) 的 一 阶 导数 变化 率 是 有 界 的 ， 设 上 下 界 分 别 为 常量 M 和 m。 有 


lf'(2) — f(y) || < Mle- vil (9.45) 
lf (2) — f(y) || 2 mlle — vil (9.46) 


通常 把 满足 式 (9.45) 称 为 一 阶 导数 f'(m)Lipschitz 连续 (Lipschitz Continuous), 满足 式 
(9.46) 称 为 f(a) 强 凸 (Strongly Convex). 
下 面 把 式 (9.45) 和 式 (9.46) 整理 成 更 加 简洁 的 形式 。 
车 f(z) 是 单 变量 的 一 维 函 数 , 根据 中 值 定理 (Mean Value Thoerem) 有 
min f”(z) < PO-fe < max f"(z) (9.47) 


aļ<z<b —a a<z<b 


为 min, f"(z) > min f^(z) 以 及 max, f(x) < max f"(z), 于 是 有 


a&z&b 


EH 


min f"(z) < fe =i) < max f" (a) (9.48) 
而 f(z) 是 凸 函数 , 所 以 f"() > 0. 则 式 (9.45) 和 式 (9.46) 等 价 于 f(x) AF, BI 
m < f"(z) « M (9.49) 


WR f(x) 是 多 变量 函数 呢 ? 此 时 的 f(c) 为 Hessian 矩阵 。 
f(z) 为 多 变量 函数 时 , 其 梯度 定义 为 


0 0 
ræ = (se Len. Le) (9.50) 
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FE f(e) 在 y 方向 上 的 导数 为 
L la)= (y, f'e) (9.51) 
ə ə 8 
-wsL) +u (e) — wal) (9.52) 
同样 地 ，f”(z) 是 f'(m) 对 每 个 变量 zx; 求 偏 导 , 所 以 f" (m) 是 一 个 ”xm 的 矩阵 ， 该 矩 
阵 称 为 Hessian 矩阵 , 矩阵 的 每 个 分 量 分 别 为 


9? 
f"). = Tre) (9.53) 


与 式 (9.51) 类 似 , 设 两 个 向 量 分 别 为 y 和 z, EE y 方向 上 求 导 , 然后 在 z 方向 上 求 时 ， 
得 到 

ay) - 2! f"(z)y (9.54) 
对 于 单 变量 的 凸 函 数 SE f > 0 且 假设 7” 有 界 [R (9.49)], 类 比 于 多 变量 凸 函 数 ， 则 
要 求 在 各 个 方向 上 的 二 阶 导数 大 于 0 且 有 界 


O«m«y'f'(z)yu «M, |yl? —1 (9.55) 


其 中 (yl? = 1 是 因为 y 是 其 方向 上 的 单位 向 量 。 接 下 来 会 看 到 式 (9.55) 中 的 m 和 M 
分 别 是 Hessian 矩阵 f"(a) 的 最 小 和 最 大 特征 值 。 

[ 定理 ] 多 元 凸 函数 在 各 个 方向 上 的 二 阶 导数 有 界 ， 等 价 于 其 Hessian 矩阵 的 特征 
值 有 界 。 

证 明 : 

(1) 任何 二 次 型 都 可 以 转化 成 标准 型 。 

dH 为 实 对 称 矩 阵 , 则 五 可 以 对 角 化 为 U DU. 其 中 U 为 本 矩阵 满足 UTU = 
UU' =I, D = diag( 和 1, 和 2,… ,和 n) 为 对 角 线 元 素 是 H 特征 值 的 对 角 和 矩阵 。 令 


有 三 TV (9.56) 


于 是 有 
Q(z) -z'Hz -(Uy) H(Uy) = y U HUy - Q(y) (9.57) 
其 中 U'HU =D, Wl 
Q(y) -v Dy - >》 Ny (9.58) 
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(2) $ H 为 实 对 称 和 矩阵 , 4 m—min(z' Hz||z|?—1) 以 及 M=maxfz Hz||z||? = 
1). Jl] m = Amin» M = Amaxe 
HWA H -U'DU., 9 y- Uz, 有 


lyl? -vy'y -(Uz) Uz = £" UT Uz = z" = |jz||? (9.59) 


同时 由 (1) 的 结论 Q(y) = Q(z), JU 


ey os 2 
m = min(y" Dy|||yl|? = 1} (9.60) 
M= max(y D y|llyll? -1) 
根据 (1) 的 结论 , 有 
y'Dy=>_ diy? (9.61) 
«Y Amaxy? (9.62) 
= 和》Xmax(》 y) (9.63) 
=Amaxll y||? (9.64) 
= Àmax (9.65) 
同 理 有 y" Dy > Amine SE, m = Amins M = Amaxo 
利用 上 面 的 定理 可 以 把 式 (9.55) 整理 成 更 加 简洁 的 形式 
mI < f"(z) < MI T 
m = Amin; M = Amax 


证 明 : 

(1) AHERE H 的 特征 值 为 入, 和 2,… ,和 ns DU HI 的 特征 值 为 Ni 十 如 Xz 十 二 ,Xn 十 
to HA, 对 应 的 特征 向 量 为 u, 满足 Hu = Nu, JU (H +tI)u = (A+ t)u. 所 以 Ni t 
为 H +t 的 特征 值 。 

(2) Æ Amin 和 Amas 分 别 是 实 对 称 矩 阵 H 的 最 小 和 最 大 特征 值 , 则 Amin < H < 
AmaxT。 设 和 ,和 2,… ,Xn 为 H 的 特征 值 ， 则 根据 (1) 的 结论 和 winT — 五 的 特征 值 为 
Amin — Ai; Ámin — Aet yin — Ans 因为 Amin — X; & 0, 所 以 Anin — HH « 0, HI 
Aminl € He [SERIE H < XmaxT。 


5 称 为 矩阵 H 的 条 件数 (Condition Number). 
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有 了 目标 函数 对 算法 收敛 速率 影响 因素 的 量化 假设 之 后 ， 就 可 以 对 具体 的 优化 算法 
进行 分 析 了 。 常见 的 最 优化 算法 一 般 分 为 两 类 , 分 别 是 一 阶梯 度 下 降 算 法 和 二 阶 牛 顿 法 。 
算法 属于 一 阶 还 是 二 阶 取决 于 计算 梯度 时 是 否 使 用 了 二 阶 泰勒 展开 来 近似 目标 函数 。 如 
果 只 展开 到 了 一 阶 则 属于 一 阶 算法 , 如 果 用 到 了 二 阶 展开 的 信息 则 属于 二 阶 算法 。 


9.4 ”一 阶 算法 : 梯度 下 降 法 


前 面 的 章节 中 已 经 讲解 过 , 梯度 下 降 法 就 是 使 用 o 范 数 作为 R 空间 长 度 度量 的 最 
速 下 降 算 法 。 根据 式 (9.4), 梯度 下 降 算 法 框架 如 下 。 

(1) 随机 选择 起 始点 z。 

(2) 计算 f'(z). 

(3) 通过 Line Search 算法 寻找 步 长 7。 

(4) AREH £ = m — nf'(z). 

(5) 若 满足 终止 条 件 输出 =; 否则 重复 步骤 (2). 
其 中 (5) 的 终止 条 件 通常 为 |/(z)||< e e 是 一 个 非常 小 的 正 数 。 

根据 前 面 章节 的 分 析 , 首先 要 对 目标 函数 进行 一 些 假设 。 假 设 目标 函数 f 是 强 凸 函 
数 , 由 式 (9.66), FE 0 <m < M 使 得 


mI < f" 4 MI (9.67) 
Bo Ay 是 了 定义 域 上 的 两 点 , 根据 中 值 定理 , 线段 lz, y] 上 存在 一 点 2 满足 
Hy) = JG) G3) (u 2) + 5(u - 2) /"GYy — 2) (9.68) 
结合 式 (9.67) 和 式 (9.68) 可 以 得 到 下 面 两 个 不 等 式 
f(y) > fe) + f(x) (y - 2) + Fly - 2l? (9.69) 
fly) < Fo) f) (y 2) + Fly- al (9.70) 


由 上 面 两 个 不 等 式 可 以 分 别 得 出 以 下 两 个 结论 。 
(1) 对 应 于 梯度 下 降 算法 , WE y = m -nf (s), RAR (9.70) 得 到 


2 
fle — nf(2)) < Fo) - nl (B+ EEr (9.71) 
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上 式 右边 部 分 可 以 看 作 是 一 个 关于 的 二 次 函数 ,其 最 小 值 在 n= E 处 取得 , 且 最 小 
EX Fe) - zrl o 因此 有 
Fle —nf'(@)) < f(2) - zizl ON (9.72) 


若 把 第 次 迭代 时 的 位 置 记 为 s, f 的 最 小 值 记 为 ft, 则 ah) = s) —nf'(z(9), 
同时 上 式 变化 为 


fal) — f* < fe) — f* — Sols eB (9.73) 


(2) 再 把 式 (0.69) 的 右边 部 分 看 作 是 一 个 关于 y 的 二 次 函数 ， 其 最 小 值 在 y =e- 
-L f'(z) 处 取得 ,最 小 什 为 f(z) - HIE) 因此 有 


f(y) > Fe) - IR (9.74) 
上 式 对 所 有 的 y 均 成 立 , 则 
P 2f6)- lf) (9.75) 
妈 
lo) 但 > 2mQ() - f°) (9.76) 


将 z RAR (9.76) 并 结合 式 (9.73) 可 得 
f(a) 一 产 < (1- aem =f’) (9.77) 


注意 , 在 式 (9.72) 的 推导 中 暗含 了 使 用 精确 线 搜索 的 方法 寻找 每 次 迭代 的 步 长 。 对 
照 式 (9.40) 可 以 看 出 ,使 用 精确 线 搜索 确定 步 长 的 梯度 下 降 算 法 的 收敛 速率 是 线性 的 。 
事实 上 若 使 用 回溯 线 搜索 , 梯度 下 降 算法 的 收敛 速率 也 是 线性 的 。 其 推导 过 程 在 很 多 资 
料 上 都 有 详细 描述 , 此 处 就 不 再 著述 了 。 


9.5 ”二 阶 算法 : 牛顿 法 及 其 衍生 算法 


与 梯度 下 降 法 一 样 , 在 前 面 的 章节 中 已 经 指出 ， 当 选择 二 次 范 数 作为 R 空间 的 长 
REE, 且 使 用 目标 函数 的 Hessian 矩阵 作为 定义 二 次 范 数 的 正定 矩阵 时 , 最 速 下 降 算法 
对 应 于 牛顿 法 。 由 式 (9.25). 牛顿 法 的 算法 框架 如 下 。 

(1) 随机 选择 起 始点 m. 
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(2) 计算 f(z), W Az = —f'(z). 

(3) 若 满 足 终止 条 件 输 出 = 并 退出 。 

(4) 通过 线 搜索 算法 寻找 步 长 7。 

(5) 迭代 更 新 z = z -mAz。 

(6) 返回 步骤 (2)。 

其 中 (3) 的 终止 条 件 通 常 为 [f^ (m)]| e € 是 一 个 非常 小 的 正 数 。 经 典 的 牛顿 法 在 每 
一 次 迭代 中 均 选 择 步 长 为 1, 因此 不 需要 使 用 线 搜索 算法 寻找 步 长 。 

牛顿 法 的 收敛 性 分 析 比 较 复 杂 , 也 并 非 本 书 的 重点 , 所 以 在 此 直接 给 出 结论 : 牛顿 法 
的 收敛 速率 是 二 次 的 ， 比 梯度 下 降 法 快 很 多 。 


9.5.1 ”牛顿 法 与 梯度 下 降 法 的 对 比 


1. 一 阶 泰勒 近似 与 梯度 下 降 
在 “最 速 下 降 算 法 "中 已 经 提 到 ,目标 函数 往往 比较 复杂 , 因此 通常 对 其 进行 近似 后 
再 做 处 理 。 目 标 函 数 的 一 阶 泰勒 展开 式 为 


Flu) = f(z) + f'(2)' (y — £) + Rn(z) (9.78) 


忽略 余 项 Ry (a) 就 得 到 了 一 阶 泰勒 展开 近似 ( 式 (9.1))。 对 于 梯度 下 降 算 法 , 一 阶 泰 
勒 展开 近似 只 是 帮助 我 们 确定 了 下 降 方向 。 因为 线性 近似 没有 极 值 点 ， 所 以 还 需要 通过 
线性 搜索 算法 来 寻找 下 降 步 长 。 而 在 9.4 节 中 可 以 看 出 ， 精 确 线性 搜索 算法 的 背后 隐 含 
着 把 目标 函数 近似 成 了 一 个 二 次 函数 后 再 寻找 极 值 的 思想 。 用 于 近似 的 二 次 函数 是 在 一 
阶 泰勒 展开 近似 的 基础 上 加 入 |y- z|| 项 之 后 得 到 的 (参见 式 (9.69) 和 式 (9.70)) 


(u) = f) + f) - 2) + Iv eld (9.79) 
页 一 阶 导数 为 0 处 为 其 极 值 点 
ét) = f'(2) + zur -2)-0 (9.80) 


于 是 便 得 到 y=- yj'(z)， 即 梯度 下 降 算法 的 更 新 法 则 。 特别 地 , 4 ne (v xl 
时 ,gi 可 以 看 作 是 目标 函数 的 一 个 上 界 ( 式 (9.70))。 


2. 二 阶 泰 勒 近似 与 牛顿 法 
对 目标 函数 进行 二 阶 泰勒 展开 得 到 
f(y) = f(x) + f(x) (y 2) + gu — 2)! f"(x)(y — z) + R«(z) (9.81) 
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忽略 余 项 Rale) 就 得 到 了 二 阶 泰勒 展开 近似 
aly) = f(x) + f'(2) (y — 2) + gu - 2)" f"(z)(y — 2) (9.82 


do 是 关于 y 的 二 次 函数 ， 极 值 点 为 


y* =x- f"(z) !f'(z) (9.83 


恰好 是 牛顿 法 的 迭代 更 新 法 则 。 

对 比 式 (9.79) 和 式 (9.82) 可 以 看 出 , 梯度 下 降 法 可 以 看 作 是 利用 一 阶 泰 勤 展开 式 条 
线 搜索 算法 构造 出 一 个 二 次 近似 ; 而 牛顿 法 则 是 直接 使 用 二 阶 泰勒 展开 式 作为 目标 函数 
的 二 次 近似 。 相 比较 而 言 , 牛顿 法 比 梯度 下 降 法 多 考虑 了 目标 函数 的 二 阶 导数 信息 , 所 以 
拥有 更 快 的 收敛 速率 ; 但 是 计算 多 元 函数 的 Hessian 矩阵 是 件 十 分 耗费 资源 的 事情 ， 时 
间 开 销 和 空间 开销 都 非常 巨大 。 那 是 否 存在 一 种 比 $1 更 精确 同时 又 比 加 更 容易 计算 的 
近似 呢 ? 沿 着 这 个 思路 设计 出 来 的 算法 通常 被 称 为 拟 牛 顿 法 (Quasi-Newton Method). 


9.5.2 ^E 

牛顿 法 虽然 比 一 阶梯 度 下 降 法 的 收敛 速率 快 很 多 , 但 由 于 Hessian 矩阵 的 计算 (特别 
是 还 需要 计算 Hessian 矩阵 的 逆 矩 阵 ) 十 分 耗 时 ， 造 成 了 牛顿 法 每 次 迭代 的 时 间 开 销 巨 
大 。 如 果 能 够 找到 一 种 递 推 的 方式 在 每 次 迭代 时 更 新 Hessian 矩阵 (甚至 直接 递 推 更 新 
Hessian 的 逆 矩 阵 )， 而 不 是 重新 计算 当前 参数 下 的 Hessian 矩阵 (BK Hessian 3ÉAEEE), 就 
可 以 大 大 缩小 牛顿 法 单 次 迭代 的 时 间 开 销 , 进而 显著 提升 算法 的 实际 表现 。 

1. 拟 牛 顿 准则 

d G 为 正定 矩阵 , 根据 式 (9.82), > 


Ir 


pelu) = f(a) + l'a) (y 2) + 5(y - 2) G(y - 2) (9.84) 
二 次 函数 pe 导数 为 0 的 点 是 极 小 值 点 ， 上 式 对 y RE 得 
gely) = f'(z) + G(y - z) (9.85) 


TW de 的 极 值 点 为 
vg = z- G~ f(x) (9.86) 


5X (9.84) 的 含义 是 不 再 使 用 目标 函数 的 Hessian 矩阵 作为 定义 二 次 范 数 的 正定 矩阵 ， 取 
而 代 之 的 是 某 一 个 正定 矩阵 G. 因此 式 (9.84) 是 式 (9.82) 更 加 泛 化 的 情况 。 
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式 (9.86) 可 知 , 每 次 迭代 只 需要 知道 矩阵 G MR G, 但 矩阵 计算 的 时 空 开 销 
是 非常 巨大 的 ， 因 此 如 果 能 够 找到 G 的 递 推 关系 , 便 可 以 大 大 简化 运算 过 程 。 事 实 
上 ， 递 推 关 系 就 存在 于 式 (9.85) P. $ y = tay z = t 第 十 1 次 迭代 的 矩阵 
G = Griy 则 式 (9.85) 可 写成 


(zkHD) = fF (PA)) + Grt (Et) — $0) (9.87) 
记 Hay = Ga 则 上 式 变换 为 
Heyy (f'(@ ery) — f'(20))) = £k) — Tk) (9.88) 
上 式 就 是 拟 牛 顿 准则 (Quasi-Newton Rule). 
AR (9.88) 中 可 以 看 出 ， 当 sar BF eg 时 有 


f(zg)- Flw) _ 
V(k--1) — Lk) 

说 明 当 迭 代 次 数 足 够 多 时 , 满足 拟 牛顿 准则 的 矩阵 Gy i 趋 于 目标 函数 的 Hessian 矩阵 。 

乡 够 满足 拟 牛 顿 准则 递 推 关系 的 正定 矩阵 有 很 多 , 下 面 列 出 一 些 常见 的 拟 牛 顿 算法 。 


lim Gk+l = f" (203) (9.89) 
大 一 oo 


2. 拟 牛 顿 法 

分 别 记 AH) = Her) - Hoy Y) = f'(20)) — P(20)) 90) = 201) 7 £09: 
常见 的 拟 牛顿 法 主要 有 以 下 几 种 。 

(1) 秩 1 校正 算法 (Rank-one Correction) 


Ow = Fw) Go -H ww)" 


AH, = (9.90) 
ww Vi (90) — H oo) 
(2) DFP 算法 (Davidon-Fletcher-Powell) 
$094) — Hm Aww) w 
AH) = D$ LH (9.91) 
^ (k)9(&) YK) (K) Vek) 
(3) BFGS 算法 (Broyden-Fletcher-Goldfarb-Shanno) 
"T 
AHw = For w ow tiorm HOTT HN (0.92) 
Vn) AHH) Vy) H aeo 
i 
其 中 办 -1+_ Ye ， 


VH kVa) 
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9.5.3 ”从 二 次 范 数 的 角度 看 牛顿 法 


以 上 的 分 析 都 是 在 欧 氏 空间 中 的 泰勒 展开 基础 上 完成 的 , 而 欧 氏 空间 是 由 定义 在 1 
范 数 上 的 内 积 所 定义 的 。 在 9.1 节 中 已 经 指出 了 牛顿 法 和 二 次 范 数 之 间 的 关系 ， 如果 在 
二 次 范 数 所 定义 的 空间 中 进行 二 阶 泰勒 展开 近似 , 会 得 到 什么 结果 呢 ? 由 二 次 范 数 的 定 
MH (9.8). 有 

llzlle = (z7 Ga)? 9.93) 
可 知 定义 在 二 次 范 数 上 的 内 积 为 
(z.y)c = (y! Gx) = (Gz, y)c 9.94) 


其 中 z, y € R^. 将 式 (9.84) 变换 到 该 内 积 所 定义 的 空间 中 , 有 


óe(y) - Sle) + f'(a) (v 2) + (y — 2)' G(y - 2) 9.95) 
= f(e) + (G^ f'G),y - 2) 
+3(G"'s"(@)\(y - 2) (u ~ 2)e 9.96) 


由 上 式 可 以 看 出 , 在 此 空间 中 , 目标 函数 的 导数 和 Hessian 矩阵 分 别 为 


folz) = G f'(x) 9.97) 
fü(z) = G7 f"(z) 9.98) 


EW G 为 f 的 Hessian 矩阵 f”, 则 上 式 变 换 为 
óp (y) = f(z) + (f"(z) ! f'(z) y — £) pr 


+E) — 2). (y - 2) (9.99) 
= f(a) + U" 2)" fG), y - 2) p 
(y - 2), (y - 2)p (9.100) 


对 比 式 (9.100) 和 式 (9.79) 可 以 看 出 ， 牛 顿 法 就 是 在 二 次 范 数 所 定义 的 内 积 空间 中 
固定 步 长 为 1 的 梯度 下 降 法 。 这 与 在 9.1 节 中 得 出 的 结论 是 一 臻 的 。 

阻尼 牛顿 法 : 从 二 次 范 数 的 角度 看 , 我 们 完全 可 以 使 用 线 搜索 来 寻找 景 佳 步 长 , 而 不 
是 把 步 长 固定 为 1。 直 接 套用 梯度 下 降 法 的 框架 。 

(1) 随机 选择 起 始点 =。 

(2) 计算 flz) 和 f" (a). 

(3) 计算 二 次 范 数 空间 中 目标 函数 的 导数 f, (e) = f" (2) (2), IW Aw = — fj, (a). 
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(4) 若 满 足 终止 条 件 输出 = 并 退出 。 

(5) 通过 Line Search 算法 寻找 步 长 m. 

(6) ARE £= £ 一 nAz。 

(7) 返回 步骤 (2). 

与 梯度 下 降 法 类 似 ，(4) 的 终止 条 件 设 为 |F (æ) & e. € 是 一 个 非常 小 的 正 数 。 再 次 
强调 一 下 ， 当 前 所 处 空间 为 二 次 范 数 所 定义 的 内 积 空间 , 根据 式 (9.97) 目标 函数 的 导数 
jjv(z) = f"(z)  f'(z). 所 以 由 式 (9.93). ||f'(2)]] 为 


IEN El (9.101) 
AORO "i (9.102) 

= (U" (2)? ET "(2)" (2)7 n MUN (9.103) 

- (f) ("(2)- H Pp )/" (a fo»? (9.104) 

= (f'() C" (£) f" (z)/"(z) ioi (9.105) 

= (Fw) f^ (2)! f(2)) (9.106) 


其 中 式 (9.102) 是 二 次 范 数 的 定义 ; 式 (9.103) 是 代入 fi, (m); 3X (9.105) 是 因为 
f(a)? 为 实 对 称 正定 矩阵 。 式 (9.106) PH (fa)? 又 被 成 为 “牛顿 
衰减 率 ”(Newton Decrement)。 上 述 这 种 不 固定 步 长 的 牛顿 法 称 为 阻尼 牛顿 法 (Damped 
Newton Method). 


9.6 h 


本 章 主要 对 常见 的 最 优化 方法 进行 了 探讨 , 可 以 看 作 是 连接 第 7 章 “ 拉 格 朗 日 乘 子 
法 ”和 第 8 章 “ 随 机 梯度 下 降 法 ”的 桥梁 。 第 7 章 的 内 容 是 本 章 的 理论 部 分 , 而 第 8 章 的 
内 容 则 是 本 章 中 介绍 的 算法 应 用 在 机 器 学 习 场景 中 的 特例 。 

在 本 章 的 开始 首先 根据 和 友 代 下 降 的 思路 提出 了 最 速 下 降 算 法 。 该 算法 运用 一 阶 泰勒 
展开 得 到 的 线性 函数 来 近似 目标 函数 ,之 后 通过 对 比 空间 单位 球 内 不 同方 向 的 函数 值 下 
降 量 确定 下 降 最 快 的 方向 ,最 后 在 此 方向 上 迈 出 一 步 完 成 一 次 迭代 。 在 目标 函数 定义 域 
所 属 的 R^ 空间 中 ,长 度 是 通过 范 数 来 度量 的 , 不 同 范 数 下 的 单位 球形 状 不 同 ， 因 此 不 
同 范 数 下 最 速 下 降 的 方向 也 不 一 样 。 通 过 分 析 发 现 : D, 范 数 定义 的 单位 球 是 一 个 超 立 方 
体 , 此 时 最 速 下 降 法 就 是 坐标 下 降 法 ; > 范 数 定义 的 单位 球 是 一 个 超 球体 , 此 时 最 速 下 降 
算法 变 成 了 一 阶梯 度 下 降 法 ; 此 外 还 有 一 种 不 太 常见 的 范 数 一 一 二 次 范 数 , 该 范 数 被 定 
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义 为 某 个 正定 矩阵 所 确定 的 正定 二 次 型 , 在 此 范 数 下 的 单位 球 是 一 个 超 椭 球 ， 而 当 正 定 
矩阵 为 目标 函数 的 二 阶 导数 Hessian 矩阵 ( 且 和 迭代 步 长 固定 为 1) 时 最 速 下 降 法 为 牛 

范 数 的 选择 决定 的 是 最 速 下 降 的 方向 ， 而 每 次 迭代 中 还 需要 确定 另外 一 个 量 一 一 
步 长 。 最 理想 的 情况 是 算法 可 以 一 步 迈 到 目标 函数 在 该 方向 上 的 最 小 值 处 ， 以 此 为 目标 
的 步 长 寻找 算法 称 为 精确 线 搜索 。 但 在 实际 情况 下 ， 精 确 寻 找 步 长 的 最 优 值 是 十 分 困难 
的 , 因为 精确 线 搜索 本 身 就 是 另 一 个 最 优化 问题 。 因 此 在 实践 中 通常 会 选择 使 用 不 那么 精 
确 的 搜索 方法 去 寻找 最 优 步 长 的 近似 解 。 非 精确 线 搜索 有 两 个 常用 的 准则 
Goldstein 准则 和 Wolfe-Powell 准则 , 满足 准则 的 步 长 便 可 作为 最 优 值 的 近似 。 两 个 准则 
均 是 由 两 个 不 等 式 组 成 的 ， 两 个 不 等 式 分 别 确定 了 近似 步 长 的 上 下 界 。Armijo-Goldstein 
准则 的 第 一 个 不 等 式 保证 目标 函数 是 下 降 的 ; 第 二 个 不 等 式 确保 步 长 不 会 太 小 ， 避 人 免 迭 
代 过 程 过 于 缓慢 。 而 Wolfe-Powell 准则 的 第 一 个 不 等 式 与 Armijo-Goldstein 准则 一 样 ; 第 
二 个 不 等 式 考虑 了 导数 的 信息 ， 期 望 到 达 点 处 的 目标 函数 导数 尽 可 能 地 接近 于 0。 两 个 
准则 给 出 的 是 寻找 近似 最 优 步 长 的 条 件 ， 而 实践 中 用 得 最 多 的 算法 是 回溯 线 搜索 。 该 算 
法 的 基本 思想 是 先 跨 出 一 大 步 , 然后 再 往 回 寻找 符合 条 件 的 步 长 。 

至 此 我 们 有 了 完整 的 基于 梯度 下 降 的 最 优化 算法 。 更 进一步 地 我 们 希望 定量 地 评估 
算法 最 终 的 收敛 情况 及 收敛 速率 ,于 是 我 们 打算 对 算法 进行 收敛 性 分 析 。 在 收敛 性 分 析 
之 前 我 们 介绍 了 一 些 预备 知识 , 包括 收敛 速率 和 对 目标 函数 的 一 些 假设 。 把 迭代 过 程 中 
得 到 的 函数 值 看 作 是 一 个 数列 , 我 们 便 可 以 使 用 定义 在 数列 上 的 收敛 速率 来 衡量 最 优化 
算法 的 快慢 ,目标 函数 的 特性 也 会 影响 收敛 速度 , 所 以 需要 对 函数 的 特征 进行 量化 。 

做 好 了 收敛 性 分 析 准备 之 后 , 我 们 接着 提出 了 一 阶 、 二 阶 优化 算法 的 概念 , 并 着 手 对 
其 进行 分 析 。 推 导 结 果 表 明 , 一 阶梯 度 下 降 法 和 二 阶 牛 顿 法 的 收敛 速率 是 线性 和 二 次 的 。 
牛顿 法 之 所 以 更 快 , 是 因为 它 使 用 了 二 阶 泰 勒 展开 式 近似 目标 函数 , 相对 于 一 阶 算法 , 额 
外 的 二 阶 信息 使 得 对 目标 函数 的 近似 更 加 精确 ,其 收敛 速率 也 就 相应 地 更 快 。 虽 然 从 收 
敛 速 率 的 角度 去 看 , 牛顿 法 比 梯度 下 降 法 快 很 多 , 然而 在 迭代 过 程 中 , 由 于 需要 不 断 地 计 
Hessian 矩阵 及 其 道 矩阵 , 单 步 和 迭代 的 计算 开销 巨大 , 因此 在 海量 数据 的 情况 下 , 牛顿 
法 并 不 一 定 比 梯度 下 降 法 更 快 。 如 果 能 够 找到 一 种 介 于 一 阶 、 二 阶 泰勒 展开 之 间 的 近似 ， 
既 能 比 一 阶 展开 更 精确 又 能 比 二 阶 展开 更 容易 计算 , 那 就 能 够 解决 梯度 下 降 法 和 牛顿 法 
所 面 对 的 困境 。 沿 着 这 个 思路 我 们 便 得 到 了 拟 牛 顿 法 。 

从 二 次 范 数 与 牛顿 法 的 关系 , 我 们 推导 出 了 拟 牛 顿 准则 。 根 据 该 准则 我 们 可 以 设计 
近似 Hessian 矩阵 (包括 逆 矩 阵 ) 的 递 推 关 系 式 。 能 够 满足 拟 牛 顿 准则 递 推 关 系 的 算法 
都 可 以 在 某 种 程度 上 满足 我 们 的 要 求 ， 这 类 算法 统称 为 拟 牛顿 法 。 常 见 的 拟 牛顿 法 有 秩 
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E 算 法 、DFP SEE. BFGS 算法 等 。 最 后 又 通过 对 二 次 范 数 的 分 析 , 提出 了 使 用 线 搜 


索 算 法 寻找 步 长 的 牛顿 法 一 一 阻尼 牛顿 法 。 
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